Full Transcript

·YouTLDR

Lokale KI ist endlich brauchbar, so geht's (Odysseus)

24:01GermanTranscribed Jun 21, 2026

Open in Studio

0:00

Lokale KI Modelle, also KI Modelle, die

0:02

komplett bei dir auf dem Rechner laufen,

0:04

ohne dass deine Daten dein Gerät

0:05

verlassen, hat sich für mich schon immer

0:08

gut angehört, aber in der Praxis nie so

0:10

richtig funktioniert. Die Modelle waren

0:12

nicht gut genug und für halbwegs

0:13

brauchbare Ergebnisse hast du auch echt

0:15

teure Hardware gebraucht. Deshalb habe

0:17

ich das Thema hier auf dem Kanal auch

0:19

noch nicht behandelt. Aber wenn man sich

0:21

mal die KI Entwicklung der letzten

0:22

Monate anschaut, dann zeichnen sich so

0:24

ein paar Trends ab, die lokale KI immer

0:27

interessanter machen. Und genau deshalb

0:29

wollen wir uns das Thema heute gemeinsam

0:30

genauer anschauen. Dabei schauen wir uns

0:32

drei Dinge an. Erstens, warum lokale KI

0:34

gerade so an Bedeutung gewinnt.

0:36

Zweitens, wie man damit auch wirklich

0:38

gut arbeiten kann. Also nicht nur in so

0:40

einem nackten Chatfenster wie bei Olama

0:42

z.B., sondern mit einem Open Source

0:44

Programm, das alle Funktionen

0:46

beinhaltet, die du auch von Chat GPT

0:48

oder Cloud kennst. also Deep Research,

0:50

Memory, Dokumentenbearbeitung und so

0:52

weiter. Und drittens schauen wir uns an,

0:54

wie du dich auch ohne starke Hardware

0:55

unabhängiger von den großen Anbietern

0:57

wie Antropic oder Open AI machst.

0:59

Entweder indem du die Modelle natürlich

1:01

lokal hostest oder z.B. günstigere

1:03

Modelle über die API nutzt und damit

1:06

nicht in einem teueren Abo festhängst

1:08

oder die Modelle auch über einen GPU

1:10

Anbieter wie Olama Cloud laufen lässt.

1:12

Also lass uns direkt einsteigen. Schauen

1:14

wir uns erstmal an, warum das Thema

1:15

gerade so an Bedeutung gewinnt. Vor ca.

1:17

einer Woche gab es einen Moment, der

1:19

ziemlich gut gezeigt hat, warum es so

1:21

wichtig ist, dass man sich etwas

1:23

unabhängiger macht von den großen

1:25

amerikanischen Techunternehmen. Die

1:27

US-Regierung hatic angewiesen, den

1:30

Zugang zu ihrem stärksten Modell Fable 5

1:32

und Mythus 5 für sämtliche ausländische

1:35

Nutzer zu sperren. Es gab wohl Bedenken

1:37

über die nationale Sicherheit und

1:39

deswegen musste Anthropic die Modelle

1:40

praktisch über Nacht für alle

1:42

nichtamerikanischen Kunden abschalten.

1:45

Das heißt, ein Spitzenmodell, das

1:46

Millionen von Leute produktiv schon

1:48

genutzt haben, war von heute auf morgen

1:49

einfach weg. Nicht, weil das Unternehmen

1:51

es wollte, sondern weil eine Regierung

1:53

es so angeordnet hat. Und der

1:55

eigentliche Knackpunkt ist auch, die

1:57

Anordnung richtete sich gezielt gegen

1:59

alle nichtamerikaner. Das heißt, die

2:01

Amerikaner durften die Modelle also

2:03

weiter nutzen, alle anderen auf der Welt

2:05

aber nicht mehr. Abgeschaltet wurde es

2:06

am Ende trotzdem für alle, weil Enhropic

2:08

gar nicht sauber trennen konnte, wer

2:10

jetzt amerikanischer Nutzer ist und wer

2:11

nicht. Aber das Kern des Problems ist

2:13

trotzdem, wenn deine Arbeit auf einem

2:14

Modell aufbaut, das jemanden anderem

2:17

gehört, kann dir der Zugang jederzeit

2:19

entzogen werden aus politischen Gründen,

2:21

aus rechtlichen Gründen oder sogar, weil

2:23

sich einfach ein Geschäftsmodell ändert.

2:25

Und es muss dafür nicht mal die

2:26

komplette Abschaltung des Zugangs sein.

2:28

Genauso gut kann ein Anbieter auch

2:30

einfach entscheiden, die Preise

2:31

drastisch anzuziehen und schon rechnet

2:33

sich dein ganzes Setup vielleicht nicht

2:35

mehr. Und das ist auch gar nicht so weit

2:36

hergeholt, wenn man sich mal die

2:37

Wirtschaftlichkeit der Abonnements von

2:40

JGPT oder Clud anschaut, die rechnen

2:43

sich nämlich für die Anbieter oft gar

2:44

nicht und Sam Oldman hat sogar selbst

2:47

schon von dem Jahr zugegeben, dass sie

2:48

mit ihrem 200 $ Abo eigentlich Geld

2:51

verlieren, einfach weil die Leute es

2:52

viel mehr nutzen, als sie erwartet

2:54

hatten. Und [räuspern] das ist immer

2:55

noch so und bei Enhropic auch nicht

2:56

anders. Und das merkst du auch vor allem

2:58

daran, dass in Tropic eine lange Zeit

3:00

lang ziemlich streng mit ihren

3:01

Nutzungslimits war und das auch immer

3:04

noch ist, finde ich, vor allem bei den

3:06

Pro Plänen, da stößt du gefühlt nach ein

3:08

zwe Stunden schon direkt an deinem

3:10

Tageslimit. Das heißt, wenn du dein

3:11

Cloud oder ChatGPT Abo wirklich bis ans

3:13

Ende ausreiz, dann machst du dem

3:15

Unternehmen viel mehr Verlust, als du

3:17

ihn eigentlich einbringst. Das heißt,

3:19

langfristig sind diese Abonnements gar

3:20

nicht tragbar für die Firmen, wenn die

3:22

neuesten und teuersten und besten

3:24

Modelle dort immer inbegriffen sind. Und

3:26

allein deswegen kann ich mir auch sehr

3:27

gut vorstellen, dass die besten und

3:29

teuersten Modelle gar nicht mal mehr in

3:31

diesen Abos enthalten sein werden.

3:33

Anthopic hatte ja auch eigentlich

3:34

vorgehabt, Fable 5 für einen Monat in

3:37

deinem Abonnement verfügbar zu machen,

3:39

obwohl das Modell laut den Tokenkosten

3:41

über die API sowohl im Input als auch im

3:44

Output doppelt so teuer ist wie Opus

3:46

4.8. Das heißt, sie wollten einfach nur

3:48

der Menschheit da draußen zeigen, wie

3:49

stark dieses Modell ist. Und ich kann

3:51

mir sehr gut vorstellen, dass sie nach

3:52

einem Monat dann gesagt hätten, okay,

3:54

das Modell ist ziemlich krass, ne? Ihr

3:55

habt's jetzt ausprobiert, wir können das

3:57

aber nicht mehr den Abonnements zur

3:58

Verfügung stellen. Also musst du das

3:59

leider über die API nutzen. Das heißt,

4:01

man hat gesehen, wie stark dieses Modell

4:02

ist und wie viel man damit machen kann

4:04

und man gewöhnt sich natürlich auch an

4:05

diese Leistung und möchte das weiterhin

4:07

nutzen und ist dann aber auch natürlich

4:09

viel mehr bereit dafür, ziemlich teure

4:10

Tokenpreise zu bezahlen. Und die

4:12

Tokenpreise sind auch jetzt nicht ohne,

4:14

also $ pro eine Million Output Tokens

4:16

und 50$ pro eine Million Output Tokens.

4:19

Und theoretisch kann diese Preise von

4:21

heute auf morgen einfach höher stellen

4:22

und das trifft dann natürlich jeden, der

4:24

seine Systeme, seine Automatisierungen,

4:26

seine ganzen Workflows auf dieses Modell

4:28

aufgebaut hat. Das heißt, das macht dich

4:29

ziemlich abhängig. Und der zweite Punkt

4:31

ist natürlich das Thema Daten. Google,

4:33

Anthropic, Open AI und alle anderen

4:35

großen Teagfirmen sind am schärfsten

4:37

darauf und entsprechend viel sammeln sie

4:39

auch. Und dass das nicht immer gut

4:41

endet, sieht man aber auch sehr

4:42

regelmäßig. Immer öfter kommt es zu

4:44

irgendwelchen Data Breaches bei größeren

4:46

Firmen. Erst Anfang des Jahres wurde bei

4:48

einer KI Chat App aufgrund einer

4:49

Fehlkonfiguration ein Datenl entdeckt,

4:52

bei dem rund 300 Millionen Nachrichten

4:54

von etwa 25 Millionen Nutzern offen im

4:56

Netz lagen. Auch Open AI musste bereits

4:58

in Vorfall einräumen, bei denen Namen

5:00

und Mailadressen abgeflossen sind. Und

5:02

die Reaktion bei diesen Film ist dann

5:03

meistens immer so, ja, tut uns leid, ne,

5:05

ist halt passiert, ja, können wir jetzt

5:07

auch nichts mehr machen. Aber wir werden

5:09

natürlich in Zukunft darauf achten, dass

5:10

das nicht noch mal passiert. Und ich

5:12

weiß, das ist den meisten auch schon

5:13

klar, aber ich will es trotzdem noch mal

5:15

erwähnen. Alles, was du in ChatGPT oder

5:17

in Cloud oder in Gemini hier

5:18

reinschreibst, landet am Ende auf

5:20

fremden Servern und du musst darauf

5:22

vertrauen, dass dort sorgfältig mit

5:24

diesen Daten umgegangen wird. Und wegen

5:26

diesen zwei Punkten ist lokale KI

5:28

natürlich sehr interessant, nicht

5:29

unbedingt als Ersatz für alles, sondern

5:31

auch eher als zweites Standbein. Also,

5:33

dass du einfach etwas hast, das

5:34

funktioniert, egal, was die Anbieter

5:36

gerade entscheiden und bei dem deine

5:38

Daten deinen Rechner nicht verlassen.

5:40

Ich bin jetzt z.B. gerade mein LM Studio

5:42

und habe hier das Gamma 4 Modell mit 12

5:44

Milliarden Parametern runtergeladen und

5:46

ich habe jetzt auch definitiv nicht den

5:47

krassesten PC hier stehen, aber schau

5:49

mal bitte, wie schnell mir das Modell

5:50

antwortet, wenn ich frage, was kannst

5:52

du? Das ist ja eigentlich genauso

5:53

schnell, wie man das auch von JGPT

5:55

kennt. Und es gibt sogar eine Version

5:57

von dem Modell, das Bilder verstehen

5:59

kann. Also, es ist ein multimodales

6:00

Modell. Das heißt, ich kann jetzt z.B.

6:02

das Foto von den vier Hunden hier

6:03

nehmen, hier einfügen und sagen, was

6:04

siehst du hier? Und wir sehen, das ist

6:06

auch ein Thinking Modell. Also die

6:07

Version gibt's auch, dass es erstmal

6:08

nachdenkt, bevor es eine Antwort gibt

6:10

und sehen sogar schon, dass er das Bild

6:12

analysiert, ne? Der erste Hund ganz

6:14

links, der zweite Hund, dritte Hund,

6:16

vierte Hund. Auf diesem Bild sieht man

6:17

vier verschiedene Hunde, die fröhlich

6:18

über eine grüne Wiese direkt auf die

6:20

Kamera zulaufen. Genau richtig. Und auch

6:23

wenn du jetzt überhaupt keine Hardware

6:24

hast, um solche Lokalmodelle laufen zu

6:26

lassen, gibt es immer noch Alternativen.

6:27

Wir haben auch in Europa bereits die

6:29

Möglichkeit auf gute KI zurückzugreifen,

6:31

nämlich bei Mistral. Die Modelle von

6:33

Mistral haben sich in den vergangenen

6:35

Monaten auch sehr sehr stark verbessert,

6:37

weswegen man für sehr viele

6:38

Anwendungsfälle auch die amerikanischen

6:39

Modelle gar nicht mal nutzen muss. Der

6:41

Punkt ist einfach, sich nicht von einem

6:42

einzigen Anbieter abhängig zu machen und

6:44

sich langfristig breiter aufzustellen.

6:46

Wenn du jetzt aber wirklich auf lokale

6:48

KI gehen willst, ist diese nicht nur aus

6:50

Unabhängigkeitssicht spannend, sondern

6:52

mittlerweile auch technisch sehr

6:53

spannend. und zwar, weil die Modelle

6:55

immer effizienter werden. Klar, bei den

6:57

ganz großen Anbietern geht's immer noch

6:59

darum, ne, immer größere Modelle, immer

7:01

mehr Parameter, immer besser mehr

7:03

Rechenleistung. Aber es gibt jetzt eben

7:05

auch den anderen Trend und der ist für

7:06

uns viel interessanter, wenn es um

7:07

lokale KI geht, nämlich möglichst

7:09

effiziente Modelle für möglichst kleine

7:12

Hardware. Vor allem die Chinesen

7:13

verfolgen diesen Ansatz und das wird

7:14

auch immer wichtiger, weil Hardware ja

7:16

eher teuer wird als billiger. Und das

7:19

sieht man vor allem an den RAMpreisen,

7:20

die steigen schon seit Monaten und das

7:23

ist auch kein Zufall. Denn der KI Boom

7:25

frisst eigentlich die ganzen

7:26

Produktionskapazitäten der

7:28

Speicherhersteller. Die bauen jetzt vor

7:29

allem eben den speziellen Speicher für

7:31

KI Rechenzentren und für normalen

7:33

Arbeitsspeicher bleibt einfach weniger

7:35

übrig. Das heißt, weniger Angebot,

7:37

trotzdem noch steigende Nachfrage, also

7:39

steigen die Preise. Umso besser, aber,

7:41

wenn die KI Modelle auch weniger

7:42

Hardware benötigen, um trotzdem gut zu

7:44

laufen. Man stellt sich dann natürlich

7:46

trotzdem die Frage, okay, reichen diese

7:47

kleinen Modelle überhaupt? Und für die

7:49

absolute Spitze von Aufgaben natürlich

7:51

nicht, das muss man ganz klar sagen,

7:53

aber für den Großteil der alltäglichen

7:54

Aufgaben, also Texte entwerfen,

7:56

zusammenfassen, umformulieren und Fragen

7:59

beantworten, dafür reichen diese Modelle

8:01

schon völlig aus. Und das sieht man auch

8:03

ganz konkret an Modellen, wie z.B. die

8:05

Gammer Modelle von Google. Das sind

8:07

kleine Modelle, die genau dafür gemacht

8:09

sind, lokal zu laufen, von Varianten

8:12

fürs Handy bis zu größeren, die trotzdem

8:14

auf einen normalen Rechner passen. Und

8:16

vor allem die chinesischen Labs treiben

8:17

diese Effizienz besonders hart voran.

8:19

Und das hat auch einen Grund, denn durch

8:21

die US Exportbeschränkungen kommen sie

8:23

an die besten und teuersten KI Chips gar

8:25

nicht erst ran. Das heißt, sie müssen

8:27

also das Maximum aus schwächerer

8:30

Hardware herausholen und genau das hat

8:32

ihre Modelle auch so effizient gemacht.

8:34

Deepsieg z.B. ist dadurch im Betrieb

8:37

deutlich günstiger als die großen

8:39

US-Modelle, hat aber es trotzdem

8:41

geschafft, sehr sehr ähnliche Leistungen

8:43

abzuliefern. Aber das machen wie gesagt

8:45

nicht nur die Chinesen und Google sagt,

8:46

du kannst Scammer schon auf einem ganz

8:48

normalen Laptop mit rund 16 GB RAM

8:50

laufen lassen und zwar auch ohne

8:52

Grafikkarte. Man muss natürlich dazu

8:54

sagen, ohne Grafikkarte läuft es

8:55

deutlich langsamer, aber du kannst es

8:57

trotzdem nutzen. Und 16 GB RAM hat heute

8:59

fast jeder Laptop, vielleicht sogar

9:00

einer, der bei dir noch irgendwo

9:01

rumliegt. Erst für die richtig großen

9:03

Modelle brauchst du eine sehr gute

9:04

Grafikkarte mit auch wirklich viel VRAM.

9:07

Das heißt, lokale KI wird sowohl aus

9:09

politischer und Unabhängigkeitssicht als

9:11

auch aus technischer Sicht besonders

9:12

interessant. Und jetzt wollen wir uns

9:13

gemeinsam anschauen, wie denn überhaupt

9:15

die Arbeit mit lokalen KI Modellen

9:16

aussehen kann. Wie kann man sich das

9:18

komfortabel einrichten, damit es sich

9:20

auch so anfühlt, als würde man einfach

9:21

JGBT oder Cloud nutzen. Und es gibt eben

9:24

lokale Programme wie Olama oder auch LM

9:26

Studio, bei denen du dir lokale Modelle

9:28

einfach runterladen kannst. Ich kann

9:30

hier z.B. links auf Model Search gehen

9:32

und sehe hier einige Modelle, die ich

9:34

einfach direkt herunterladen kann, wie

9:35

eben z.B. hier Gamma 4 mit 12 Milliarden

9:38

Parametern. Das Modell ist 7 GB groß und

9:41

ich kann jetzt hier mit diesem Modell

9:42

schreiben. Ich kann auch hier rechts

9:44

Dateien hochladen oder auch Bilder und

9:46

dann auch z.B. über die Dateien chatten.

9:48

Aber mir persönlich fehlen hier bei LM

9:50

Studio oder auch bei Olama noch einige

9:51

Möglichkeiten, die man vielleicht von

9:53

CHGPT kennt. Z.B. die Deep Research

9:55

Funktion oder auch die Möglichkeit

9:58

Dokumente zu bearbeiten, also nicht nur

10:00

hochzuladen und darüber zu schreiben,

10:01

sondern z.B. einen Dokumenteneditor,

10:03

der, wenn jetzt hier ein Text generiert

10:05

wird, hier rechts aufgeklappt wird und

10:07

man dort sogar dann einfach

10:08

weiterschreiben kann, um den Text

10:09

anzupassen oder auch irgendwie so eine

10:11

Agent Funktionalität, denn sehr viele

10:12

von diesen Modellen können auch Tools

10:14

ausführen. Das heißt, damit haben wir

10:16

ein Modell, das nicht nur Antworten

10:17

geben kann, sondern auch wirklich

10:18

Aufgaben erledigen kann. Und ich weiß,

10:20

es gibt Tools wie Hermes, die in diese

10:21

Richtung gehen, ne, die einfach Aufgaben

10:23

für dich abnehmen und das funktioniert

10:24

auch alles mit lokalen Modellen. Das ist

10:26

auch schön und gut, aber ich wollte

10:27

jetzt einfach diese Standard KI

10:29

Oberfläche wie bei Chat GPT oder Cloud,

10:31

wo man einfach nur schreiben kann, mit

10:32

Dokumenten arbeiten kann und so weiter,

10:34

vielleicht auch seine E-Mails, sein

10:35

Kalender und sowas zugreifen kann, nur

10:37

eben lokal. Und da bin ich dann über ein

10:39

Open Source Projekt namens Odysseus

10:41

gestoßen, dass eben genau diese

10:43

Kapazitäten, also Chats, Agents,

10:46

Recherche, Dokumenten, E-Mails, Notizen,

10:48

Kalender und eben auch lokale Workflows

10:50

in einem Programm vereint. Und das Ganze

10:52

läuft bei mir jetzt hier lokal und ich

10:54

habe hier rechts genauso wie jetzt in LM

10:57

Studio oder Olama hier ein paar Modelle

10:59

angebunden, wie z.B. das Scammer 4

11:01

Modell. Ich kann hier rechts auswählen,

11:02

ob ich einfach nur chatten möchte oder

11:04

eben auch die Agent Funktionalitäten

11:05

brauche. Also sowas, dass er auch lokal

11:07

Code ausführen kann oder dass er eben

11:09

z.B. im Internet recherchieren kann. Und

11:11

ich finde die Integrationen hier mega

11:12

cool. Man hat z.B. die Möglichkeit

11:14

direkt sein E-Mailpostfach anzubinden.

11:16

Ich habe jetzt einfach mal irgendeine

11:17

Mail hier geöffnet und kann hier z.B.

11:19

auch direkt mit dem lokalen Modell die

11:21

Mail zusammenfassen hier oben. Ich kann

11:22

sogar von der KI eine Nachricht

11:24

generieren lassen. Hey there, thanks for

11:26

the Update blablabla. Ich kann dir jetzt

11:27

auch direkt hier unten verschicken. Das

11:29

heißt, ich kann jetzt ziemlich schnell

11:30

eben meine ganzen Mails bearbeiten und

11:32

dabei alles lokal auf meinem Rechner.

11:34

Man kann eben auch so verschiedene Tabs

11:35

öffnen und die dann halt irgendwo

11:36

hinziehen. Und es kommen noch weitere

11:38

nützliche Funktionen hinzu, wie z.B. das

11:40

Brain. Hier merkt sich das System Sachen

11:42

über mich. Also, ich habe z.B. letztens

11:43

geschrieben, dass meine Lieblingsfrucht

11:45

Wassermelone ist und das hat er sich

11:46

dann hier gespeichert. Wenn ich z.B.

11:48

schreibe, mein Lieblingssport ist

11:49

Fußball, dann sehen wir jetzt hier, dass

11:51

das Modell das erkennt als Fakt und das

11:53

jetzt eben in das Memory speichert. Das

11:55

heißt, die Funktion, dass ich das

11:56

Programm auch etwas über dich merkt, so

11:58

wie bei JGBT oder Cloud gibt es hier

12:00

auch. Wenn ich hier zurück zum Brain

12:01

gehe, sehe ich ganz genau, der

12:03

Lieblingssport des Benutzers ist

12:04

Fußball. Ich kann hier eigene Memories

12:06

anlegen und ich kann sogar Skills

12:07

importieren, ne? Das sind ja wichtige

12:09

Anleitungen für agentische Systeme,

12:11

damit die bestimmte Aufgaben einfach

12:13

immer wieder erledigen können, ohne dass

12:15

du dich neu erklären musst. Und ich habe

12:16

jetzt hier unter den Skills auch z.B.

12:18

schon den Skill Creator Skill

12:19

heruntergeladen, der offiziell von

12:21

Anthropic erstellt wurde, um eben den im

12:23

Sprachmodellen zu erklären, wie sie

12:25

Skills erstellen können, wenn ich jetzt

12:26

einen eigenen Skill anlegen möchte.

12:28

Sowas kannst du z.B. auch bei Cloud

12:30

anlegen, aber eben auch bei Odyssey

12:32

haben ja sogar einen eingebauten

12:33

Kalender, das heißt hier kann das Modell

12:35

dann drauf zugreifen. Wir können ja

12:37

Termine eintragen und eben auch auslesen

12:39

und man kann auch seine eigenen Termine

12:40

hier importieren. Ich persönlich würde

12:42

das jetzt wahrscheinlich nicht so viel

12:43

nutzen, aber ich finde es trotzdem eine

12:44

coole Idee. Was ich auch sehr cool

12:46

finde, ist die Compare Funktion. Da

12:48

kannst du verschiedene Modelle, die du

12:49

hier installiert hast oder die du dann

12:51

auch per API auswählen kannst, wenn du

12:53

jetzt nicht lokal arbeiten möchtest,

12:54

miteinander vergleichen. Und das kannst

12:56

du sogar blind machen, damit du nicht

12:58

voreingenommen bist. Ganz oft willst du

13:00

ja sehen, wie verschiedene Modelle auf

13:01

einen prompt antworten und dann nimmst

13:03

du einfach die beste Antwort für dich.

13:06

Ich kann auch den Typ auswählen, also

13:07

soll das jetzt im Chat getestet werden,

13:09

in der Agent Funktionalität, in der

13:11

Websuche oder auch in der

13:12

Tiefenrecherche, wir machen es jetzt

13:14

einfach mal im Chat. Ich habe z.B. das

13:15

Quen 3 Modell jetzt hier und auch Gamma

13:17

4 und ich kann jetzt beiden Modellen

13:19

dieselbe Aufgabe stellen. Schreibe ein

13:21

Gedicht über Elefanten und ich sehe

13:23

jetzt nicht, welches Modell welches ist

13:24

und weil meine Grafikkarte jetzt nicht

13:26

beide Modelle gleichzeitig packt, wird

13:27

erstmal Modell A jetzt hier ausgeführt

13:29

und dann Modell B. Und dann haben jetzt

13:31

beide Modelle hier was geschrieben und

13:32

ich kann jetzt entscheiden, welches ich

13:33

davon mehr mag. Und wenn ich jetzt hier

13:35

unten auf Reveal klicke, sehe ich jetzt

13:36

oben, welches Modell das eigentlich war.

13:39

Das find ich schon eine ziemlich coole

13:40

Funktion, auch nicht nur mit lokalen

13:42

Modellen, sondern wenn du auch über die

13:43

API verschiedene größeren Modelle mal

13:46

testen möchtest. Was auch sehr gut ist

13:47

bei Odysseoice, ist die Deep Research

13:49

Funktion. Du gibst hier oben einfach nur

13:50

eine Frage ein und der recherchiert dann

13:52

erstmal zu dem Thema und schreibt dann

13:54

einen sehr ausführlichen Artikel. Ich

13:56

habe ja z.B. gestern schon die Frage

13:57

gestellt, was ist ein Agent Harness und

13:59

wie funktioniert sowas? Und was ich mega

14:01

cool finde, ist, dass du nicht einfach

14:02

nur einen Text zurückbekommst, sondern

14:05

einen vollständigen Blogartikel, der

14:06

richtig gut aussieht, auch optisch, den

14:09

du theoretisch auch direkt als

14:10

Blogartikel posten kannst. Und hier

14:12

sehen wir dann den gesamten Artikel,

14:13

können uns den durchlesen, der ist schön

14:15

formatiert und ganz unten können wir

14:17

sogar auf Discuss gehen und dann können

14:19

wir sogar direkt über diese Recherche

14:21

noch mal mit unserem Agenten chatten.

14:22

Und es gibt weitere Funktionen, wie z.B.

14:24

Notizen, die man sich direkt anlegen

14:25

kann. Man kann sogar Aufgaben sofort

14:27

tracken und eben auch von der KI hier

14:29

erstellen lassen. Du kannst, wie du

14:30

lustig bist, hier auch das Theme ändern,

14:32

ne? Also falls hier irgendwie ein

14:34

anderes Design noch mehr liegt, kannst

14:37

du das ganz einfach hier einstellen.

14:39

Kannst s aber natürlich auch frei

14:40

anpassen. Und natürlich kannst du auch

14:42

mit Dokumenten arbeiten. Das macht man

14:44

hier unter Library. Hier kannst du

14:46

Dokumente hochladen, auf die die Modelle

14:48

dann auch zurückgreifen können. Und was

14:49

ich eben auch sehr cool finde, ist die

14:51

Dokumentenbearbeitung. Ich kann jetzt

14:52

z.B. sagen, ich möchte einen Blogartikel

14:54

haben über lokale KI und dieser soll

14:56

eben in der Library abgespeichert

14:57

werden. Dann kann ich hier auf Library

14:59

gehen und sehe hier dann den Artikel und

15:01

ich kann den Artikel dann auch direkt

15:02

öffnen und dann öffnet sich hier rechts

15:04

so ein Fenster, wo ich den Artikel dann

15:06

auch direkt bearbeiten kann. Also ich

15:08

kann hier dann selber reinschreiben,

15:10

denn der KI Text ist natürlich nie

15:12

wirklich so perfekt, dass man ihn

15:14

einfach so lassen kann. Man möchte

15:15

natürlich hier noch was reinschreiben,

15:17

mal ein paar Sachen anpassen, mal

15:18

irgendwas rausstreichen, wie auch immer.

15:20

Und das kann ich jetzt problemlos machen

15:21

und das dann einfach abspeichern. Das

15:23

ist z.B. für eine Sache, die mich bei

15:24

Cloud sehr stört, denn ich habe dem

15:25

jetzt hier die gleiche Aufgabe gegeben

15:27

und der hat dann hier auch ein Dokument

15:28

erstellt, hier eine Mark Datei und ich

15:31

kann die einfach nicht bearbeiten. Also

15:32

ich kann hier nicht reinklicken, ich

15:33

kann nur Kommentare geben, aber ich kann

15:35

hier nicht direkt reinschreiben und das

15:37

ist finde ich einfach ziemlich nervig,

15:39

weil ich dann wieder ein anderes

15:40

Dokument öffnen muss, ein anderes

15:41

Programm, nur um hier den Text zu

15:43

bearbeiten. Und falls du jetzt auch

15:45

selber keine Ahnung hast, was für lokale

15:46

Modelle du überhaupt laufen lassen

15:48

kannst auf deinem PC, kannst du hier

15:49

auch ins Cookbook reinschauen. Hier

15:51

unten werden dir dann Modelle empfohlen,

15:53

die zu deiner Hardware passen, denn das

15:54

ist vor allem auch als Anfänger ziemlich

15:56

schwer einzuschätzen, was kann überhaupt

15:57

auf meinem PC laufen. Und wie gesagt, du

15:59

kannst hier auch jederzeit Modelle per

16:02

API hinzufügen, ne, weil du jetzt

16:04

irgendwie mit stärkeren Modellen

16:05

arbeiten willst. Kannst ja z.B. auch

16:07

direkt MAL verbinden, wenn du jetzt mit

16:10

europäischen Anbietern arbeiten

16:11

möchtest. Und eine letzte Sache noch,

16:13

dann höre ich auch auf, aber ich finde

16:14

es einfach mega cool. Es gibt ja auch

16:15

die Galerie, das heißt, du kannst hier

16:17

Bilder hochladen und diese sogar direkt

16:19

bearbeiten. Also, ich habe jetzt hier

16:20

z.B. mein letztes Video Thumbnail und

16:23

hier kann ich das Bild bearbeiten. Ich

16:24

kann hier mit so einer Brush drüber

16:26

gehen, wenn ich möchte. Ich kann

16:27

natürlich auch hier mit dem Radiergummi

16:30

drüber. Es gibt sogar eine Impaint

16:31

Funktion und auch so ein Background

16:33

Removal, aber ja, das finde ich einfach

16:35

so ein cooles nices Addon. Vielleicht

16:36

ist ja für den ein oder anderen ganz

16:37

nützlich. Das Projekt wurde übrigens von

16:39

PewDiePie gemacht, einer der größten

16:41

YouTuber überhaupt, der sich aber gerade

16:43

sehr stark auf lokale KI spezialisiert.

16:45

Fand ich ganz witzig. Wenn du dir es

16:46

lokal installieren willst und das noch

16:47

nie so vorher gemacht hast, würde ich

16:49

dir definitiv empfehlen, da mit Cloud

16:51

gemeinsam, also Cloud Code oder auch

16:53

Codex zu arbeiten, denn du kannst Cloud

16:55

Code auch einfach den Link zu diesem

16:56

Repository geben, ich verlinke dir den

16:58

auch in der Videobeschreibung und sagen,

16:59

du möchtest das gerne installieren. COD

17:01

wird das dann für dich machen, wird dir

17:02

vielleicht sagen, was du noch brauchst

17:03

und du wirst bestimmt mal auf das eine

17:05

oder andere Problem stößen bei dem

17:06

Programm, das Claud dann aber auch

17:08

relativ leicht für dich lösen kann. Das

17:09

Problem bei mir war z.B., dass ich diese

17:11

lokalen Modelle nicht mit meiner

17:12

Grafikkarte nutzen konnte. Ich wusste

17:14

nicht, warum. Ich habe das dann aber

17:15

einfach nur Cloud gesagt und er hat das

17:17

dann sofort gelöst und alles

17:18

eingerichtet und der hat dann natürlich

17:19

auch Zugriff auf Odysseis und kann dort

17:22

ganze Einstellungen konfigurieren für

17:23

dich, sodass du am Ende einfach nur mit

17:25

Cloud Code gemeinsam das Setup machst

17:27

und dann Odysseys lokal für dich nutzen

17:29

kannst. Das würde ich dir definitiv

17:30

empfehlen und das geht auch damit

17:31

relativ zügig. Jetzt kann es vielleicht

17:33

sein, dass deine Hardware auch nicht

17:34

ausreicht, um jetzt hier gute lokale

17:37

Modelle laufen zu lassen. Oder

17:38

vielleicht hast du selber auch gar keine

17:39

Lust, das alles lokal laufen zu lassen,

17:41

möchtest aber trotzdem sowas wie Odysse

17:43

nutzen, die aber trotzdem Kosten sparen

17:45

und nicht 90 € im Monat für ein Cloud

17:47

Abonnement ausgeben. Und vielleicht

17:48

willst du sowas wie Odysseys auch nicht

17:49

nur hier auf deinem Rechner nutzen,

17:51

sondern das von überall aus erreichen,

17:52

von egal welchem Gerät. Und da will ich

17:54

jetzt auch noch mal mehr auf den dritten

17:55

Punkt eingehen, denn klar, du machst

17:56

dich natürlich komplett unabhängig, wenn

17:58

du alles lokal hostest, aber was sind

18:00

dann noch Alternativen, wie du dich

18:01

trotzdem noch unabhängiger machen

18:03

kannst, auch wenn du jetzt nicht alles

18:04

lokal bei dir hosten kannst. Und dafür

18:07

habe ich eine Tabelle erstellt, die

18:08

zeigt, welche Alternativen es noch gibt

18:10

und was da so die Vor und Nachteile

18:12

sind. Wenn du komplett lokal unterwegs

18:13

bist, ist es aus Datensicherheit

18:14

natürlich perfekt. Auch die

18:16

Nutzungslimits sind unbegrenzt und du

18:18

hast auch eigentlich keine Kosten, außer

18:20

natürlich den Strom, den du zahlst für

18:22

deine Höllenmaschine, die du dann

18:24

vielleicht zu Hause stehen hast. Wenn du

18:25

jetzt sagst, Datensicherheit ist für

18:27

dich jetzt nicht so das oberste Thema

18:28

und du möchtest einfach nur solche Open

18:30

Source Projekte wie Odysseys nutzen,

18:32

aber im Hintergrund günstige Modelle,

18:34

die aber wirklich leistungsstark sind

18:36

und du auch gar keine Nutzungslimits

18:38

hast, dann würde ich dir empfehlen über

18:39

die API zu gehen. Das heißt, du zahlst

18:41

dann wirklich pro Token, den du

18:42

verbrauchst und es gibt Plattformen wie

18:44

z.B. Open Router, auf denen du auf alle

18:48

Sprachmodelle, die es da draußen gibt,

18:49

zugreifen kannst. Das heißt, du musst

18:51

dir dort nur einmal einen API erstellen,

18:53

ein paar Credits hochladen und dann

18:55

kannst du eigentlich alle Modelle

18:56

nutzen, denn Open Routrouter leitet die

18:57

Anfragen dann einfach nur an die

18:59

entsprechenden Anbieter weiter. Und das

19:00

Gute da ist auch, du zahlst eben nur für

19:02

deine Nutzung, das heißt, du hast keine

19:04

Basisgebühr jeden Monat und es gibt eben

19:06

auch sehr gute Modelle, eben chinesische

19:09

Modelle wie z.B. GLM 5.2, das ist vor

19:12

kurzem erst rausgekommen und ich bin ja

19:13

jetzt auf dem Artificial Analysis

19:15

Leaderboard. Hier sieht man immer so,

19:16

was so die besten Modelle sind aktuell

19:18

und was sie so kosten und wir sehen ja

19:20

natürlich Cloud Fable, Cloud Opus 4.8

19:22

und eben GPT 5.5, aber nicht weit unten

19:24

sehen wir eben auch schon die

19:25

chinesischen Modelle, die im Vergleich

19:27

deutlich günstiger sind. Also wir sehen

19:29

jetzt hier pro 1 Million Input und

19:31

Output Tokens blendet, also das jetzt

19:32

sozusagen der durchschnittliche Preis,

19:34

kostet es nur 90$ Cent, während hier

19:37

z.B. GPT 5.5 schon $ kostet und die

19:40

anderen Modelle sind auch ungefähr bei $

19:42

und Cloud Fable ist natürlich super

19:43

teuer und das obwohl es sehr ähnliche

19:45

Leistungen bietet und sogar ein

19:47

Kontextfenster von 1 Million Tokens hat.

19:49

Das sind 750 000 Wörter. Wenn ich ein

19:51

bisschen weiter runter scroll sehe ich

19:52

sogar hier Deep Seek V4 Pro. Auch ein

19:55

sehr gutes Modell und es kostet nur 18$

19:58

Cent. Das ist überhaupt gar nichts. Und

19:59

deswegen würde ich dir auch empfehlen,

20:01

wenn du über die API gehen willst und

20:03

unbegrenzte Nutzung haben möchtest und

20:05

es für dich kein Problem ist, wenn deine

20:06

Daten in China landen, dann nutzt sowas

20:08

wie Deeps V4 oder eben auch GLM 5.2.

20:11

Wenn du jetzt aber sagst, das Thema

20:12

Datensicherheit ist dir schon wichtig,

20:14

aber du hast trotzdem nicht die nötige

20:15

Hardware, um KI Modelle lokal laufen zu

20:17

lassen, dann würde ich dir die Olama

20:19

Cloud empfehlen. Olama stellt nämlich

20:21

auch GPU Server zur Verfügung. Das

20:23

heißt, Open Source Modelle hosten die

20:25

dann auf ihrer Infrastruktur und die

20:27

werben eben mit einer deutlich

20:28

stringeren Datenschutzregelung als die

20:30

großen US-Anbieter. Konkret mit Zero

20:32

Data Retention, also keiner Speicherung

20:34

deiner Anfragen. Die sagen hier eben

20:36

auch konkret keep your data private. Man

20:38

muss natürlich dazu sagen, dass die

20:40

Daten trotzdem in den USA landen. Das

20:42

heißt, sie sagen zwar, deine Daten sind

20:43

privat, aber am Ende des Tages verlassen

20:45

sie trotzdem dein Gerät. Von daher ist

20:47

es immer ein Tradeoff. Das Gute ist

20:49

aber, du kriegst dir dafür die großen

20:51

Open Source Sprachmodelle wie z.B. z.B.

20:52

GLM5.2 oder auch Deepseak V4, die mit

20:55

sehr hoher Wahrscheinlichkeit nicht auf

20:57

deiner lokalen Hardware aufpassen, für

20:58

sogar schon 0 $ und im ProLAN eben nur

21:01

für $ im Monat. Und die hosten eben alle

21:03

Open Source Modelle. Hier sieht man z.B.

21:04

jetzt oben auch das neue Gill M5.2. Das

21:07

heißt, wenn du die Modelle auch wirklich

21:08

viel nutzt, dann lohnt es sich

21:10

vielleicht sogar einfach über das

21:11

Abonnement zu gehen und einfach nur

21:12

einmal flat 20$ zu zahlen im Monat. Und

21:14

du hast hier eben den Vorteil, dass

21:16

Olama einen Fokus auf private Daten

21:18

legt. Ob das dann am Ende genau stimmt,

21:20

kann man natürlich nie genau sagen. Das

21:21

heißt, das sind so eigentlich die drei

21:23

Alternativen zu dem Standard US

21:25

Abonnement, wo du dann natürlich den

21:27

Vorteil genießt, die absolut besten

21:29

Modelle zu nutzen, die es gerade gibt.

21:30

Wenn du dich jetzt für die beiden

21:31

mittleren Optionen hier entscheidest,

21:33

also ne günstige API Modelle oder Olama

21:36

Cloud, dann würde ich dir auch definitiv

21:37

empfehlen und Odisoys nicht lokal auf

21:39

deinem Rechner laufen zu lassen, sondern

21:41

auf einem Server, der auch

21:42

hundertprozentig dir gehört, denn da

21:43

hast du den Vorteil, dass du von jedem

21:45

Gerät aus jederzeit darauf zugreifen

21:47

kannst, auch wenn dein PC aus ist. Das

21:49

heißt auch vom Handy. Und ich persönlich

21:50

hoste alle meine Anwendungen bei

21:52

Hostinger. Da habe ich einen Server, wo

21:53

jetzt auch mehrere Programme laufen, wie

21:55

z.B. Odysseys, aber auch mein Hermis. Es

21:57

gibt dir den Docker Manager, wo du

21:59

jederzeit verschiedenste neue

22:01

Applikationen wie z.B. Oddysois einfach

22:04

direkt installieren kannst und das ganze

22:06

Setup wird vollständig von Hostinger

22:07

übernommen und das macht es natürlich

22:08

deutlich einfacher direkt loszulegen,

22:10

wenn man keine Ahnung von Server hat.

22:12

Falls du noch keinen Server hast, kannst

22:13

du auch über so ein Oneclick Install

22:14

Template einen Server kaufen, wo

22:16

Odisseys dann auch direkt drauf

22:18

installiert ist. Und wenn du jetzt auch

22:19

planst mehrere Anwendungen zu

22:20

installieren, wie z.B. Hermis oder auch

22:22

N8N oder andere Open Source Projekte,

22:24

dann würde ich dir den KFM 2 Plan

22:26

empfehlen. Den nutze ich selber und

22:27

hatte bis jetzt noch keine Probleme,

22:29

auch wenn ich mehrere Programme

22:30

installiert habe. Und wie gesagt, der

22:32

Server gehört hundertprozentig dir, nur

22:33

du hast darauf Zugriff und der

22:35

Serverstandort ist eben auch in

22:36

Deutschland. Das ist ganz wichtig und

22:38

ich finde eben die Kombination aus

22:39

Hostinger, welche die günstigen Server

22:40

bereitstellt und Olama Cloud, welche die

22:43

günstigen Modelle anbietet mit Fokus auf

22:45

Datensicherheit eigentlich die perfekte

22:47

Kombi. Du kannst dir übrigens mit dem

22:48

Code Jujan Ivanov noch mal 10 % auf alle

22:50

Jahrespläne sparen. Nach dem

22:51

Zahlungsvorgang wird Odysse für dich

22:53

installiert und dann landest du auch

22:54

hier im Server Dashboard und hier kannst

22:56

du dann Odysseis direkt öffnen und damit

22:57

läuft Odyssey auch geschützt im

22:59

Internet. Du kannst es erreichen und

23:00

kannst dich hier einloggen. Ich habe

23:01

jetzt unten rechts z.B. Open Router

23:03

verbunden und habe deswegen Zugriff auf

23:05

alle Sprachmodelle, die es da draußen

23:06

gibt. Wenn du jetzt die Verbindung mit

23:08

Olama Cloud machen möchtest, würde ich

23:09

dir einfach empfehlen, kurz Cloud zu

23:10

fragen, dir bei der Einrichtung zu

23:12

helfen. Du musst dafür eigentlich nur

23:13

noch als zusätzliche Anwendung hier im

23:15

Katalog Olama installieren, genauso wie

23:17

du es lokal installieren würdest und

23:19

dort musst du dich dann mit deinem

23:20

Account anmelden und kannst dann auf

23:21

alle Modelle zugreifen und die auch bei

23:23

Odysse verknüpfen. Aber wie gesagt, hier

23:25

kann dir Cloud auch step by Step helfen.

23:27

Das war's auch schon. Damit haben wir

23:28

uns jetzt auch angeschaut, was man noch

23:29

für Alternativen hat, wenn man es nicht

23:31

alles lokal machen kann. Du weißt jetzt

23:32

auch Bescheid, warum lokale KI immer

23:34

interessanter wird. Die Modelle sind

23:36

mittlerweile echt ziemlich gut geworden,

23:37

auch bei nicht leistungsstarker

23:39

Hardware. Und klar, man kommt nicht an

23:40

die Topmodelle ran und für viele Sachen

23:42

reicht es vielleicht auch noch nicht,

23:43

aber es ist trotzdem gut, dass wir uns

23:45

mit dem Thema beschäftigen, um einfach

23:46

nur ein zweites Standbein zu haben und

23:48

uns unabhängiger von den US-Anbietern

23:49

machen können. Falls dir das Video

23:51

weitergeholfen hat, dann lasst doch

23:52

gerne ein Like und ein Abo da, um

23:53

weiteren KI Content nicht zu verpassen.

23:55

Ich bedanke mich herzlich fürs Zuschauen

23:56

und würde sagen, wir sehen uns beim

23:57

nächsten Video wieder. Bis dann.

More transcripts

Explore other videos transcribed with YouTLDR.

Get the TLDR of any YouTube video

Transcribe, summarize, and repurpose videos in 125+ languages — free, no signup required.

Try YouTLDR Free