0:00
Lokale KI Modelle, also KI Modelle, die
0:02
komplett bei dir auf dem Rechner laufen,
0:04
ohne dass deine Daten dein Gerät
0:05
verlassen, hat sich für mich schon immer
0:08
gut angehört, aber in der Praxis nie so
0:10
richtig funktioniert. Die Modelle waren
0:12
nicht gut genug und für halbwegs
0:13
brauchbare Ergebnisse hast du auch echt
0:15
teure Hardware gebraucht. Deshalb habe
0:17
ich das Thema hier auf dem Kanal auch
0:19
noch nicht behandelt. Aber wenn man sich
0:21
mal die KI Entwicklung der letzten
0:22
Monate anschaut, dann zeichnen sich so
0:24
ein paar Trends ab, die lokale KI immer
0:27
interessanter machen. Und genau deshalb
0:29
wollen wir uns das Thema heute gemeinsam
0:30
genauer anschauen. Dabei schauen wir uns
0:32
drei Dinge an. Erstens, warum lokale KI
0:34
gerade so an Bedeutung gewinnt.
0:36
Zweitens, wie man damit auch wirklich
0:38
gut arbeiten kann. Also nicht nur in so
0:40
einem nackten Chatfenster wie bei Olama
0:42
z.B., sondern mit einem Open Source
0:44
Programm, das alle Funktionen
0:46
beinhaltet, die du auch von Chat GPT
0:48
oder Cloud kennst. also Deep Research,
0:50
Memory, Dokumentenbearbeitung und so
0:52
weiter. Und drittens schauen wir uns an,
0:54
wie du dich auch ohne starke Hardware
0:55
unabhängiger von den großen Anbietern
0:57
wie Antropic oder Open AI machst.
0:59
Entweder indem du die Modelle natürlich
1:01
lokal hostest oder z.B. günstigere
1:03
Modelle über die API nutzt und damit
1:06
nicht in einem teueren Abo festhängst
1:08
oder die Modelle auch über einen GPU
1:10
Anbieter wie Olama Cloud laufen lässt.
1:12
Also lass uns direkt einsteigen. Schauen
1:14
wir uns erstmal an, warum das Thema
1:15
gerade so an Bedeutung gewinnt. Vor ca.
1:17
einer Woche gab es einen Moment, der
1:19
ziemlich gut gezeigt hat, warum es so
1:21
wichtig ist, dass man sich etwas
1:23
unabhängiger macht von den großen
1:25
amerikanischen Techunternehmen. Die
1:27
US-Regierung hatic angewiesen, den
1:30
Zugang zu ihrem stärksten Modell Fable 5
1:32
und Mythus 5 für sämtliche ausländische
1:35
Nutzer zu sperren. Es gab wohl Bedenken
1:37
über die nationale Sicherheit und
1:39
deswegen musste Anthropic die Modelle
1:40
praktisch über Nacht für alle
1:42
nichtamerikanischen Kunden abschalten.
1:45
Das heißt, ein Spitzenmodell, das
1:46
Millionen von Leute produktiv schon
1:48
genutzt haben, war von heute auf morgen
1:49
einfach weg. Nicht, weil das Unternehmen
1:51
es wollte, sondern weil eine Regierung
1:53
es so angeordnet hat. Und der
1:55
eigentliche Knackpunkt ist auch, die
1:57
Anordnung richtete sich gezielt gegen
1:59
alle nichtamerikaner. Das heißt, die
2:01
Amerikaner durften die Modelle also
2:03
weiter nutzen, alle anderen auf der Welt
2:05
aber nicht mehr. Abgeschaltet wurde es
2:06
am Ende trotzdem für alle, weil Enhropic
2:08
gar nicht sauber trennen konnte, wer
2:10
jetzt amerikanischer Nutzer ist und wer
2:11
nicht. Aber das Kern des Problems ist
2:13
trotzdem, wenn deine Arbeit auf einem
2:14
Modell aufbaut, das jemanden anderem
2:17
gehört, kann dir der Zugang jederzeit
2:19
entzogen werden aus politischen Gründen,
2:21
aus rechtlichen Gründen oder sogar, weil
2:23
sich einfach ein Geschäftsmodell ändert.
2:25
Und es muss dafür nicht mal die
2:26
komplette Abschaltung des Zugangs sein.
2:28
Genauso gut kann ein Anbieter auch
2:30
einfach entscheiden, die Preise
2:31
drastisch anzuziehen und schon rechnet
2:33
sich dein ganzes Setup vielleicht nicht
2:35
mehr. Und das ist auch gar nicht so weit
2:36
hergeholt, wenn man sich mal die
2:37
Wirtschaftlichkeit der Abonnements von
2:40
JGPT oder Clud anschaut, die rechnen
2:43
sich nämlich für die Anbieter oft gar
2:44
nicht und Sam Oldman hat sogar selbst
2:47
schon von dem Jahr zugegeben, dass sie
2:48
mit ihrem 200 $ Abo eigentlich Geld
2:51
verlieren, einfach weil die Leute es
2:52
viel mehr nutzen, als sie erwartet
2:54
hatten. Und [räuspern] das ist immer
2:55
noch so und bei Enhropic auch nicht
2:56
anders. Und das merkst du auch vor allem
2:58
daran, dass in Tropic eine lange Zeit
3:00
lang ziemlich streng mit ihren
3:01
Nutzungslimits war und das auch immer
3:04
noch ist, finde ich, vor allem bei den
3:06
Pro Plänen, da stößt du gefühlt nach ein
3:08
zwe Stunden schon direkt an deinem
3:10
Tageslimit. Das heißt, wenn du dein
3:11
Cloud oder ChatGPT Abo wirklich bis ans
3:13
Ende ausreiz, dann machst du dem
3:15
Unternehmen viel mehr Verlust, als du
3:17
ihn eigentlich einbringst. Das heißt,
3:19
langfristig sind diese Abonnements gar
3:20
nicht tragbar für die Firmen, wenn die
3:22
neuesten und teuersten und besten
3:24
Modelle dort immer inbegriffen sind. Und
3:26
allein deswegen kann ich mir auch sehr
3:27
gut vorstellen, dass die besten und
3:29
teuersten Modelle gar nicht mal mehr in
3:31
diesen Abos enthalten sein werden.
3:33
Anthopic hatte ja auch eigentlich
3:34
vorgehabt, Fable 5 für einen Monat in
3:37
deinem Abonnement verfügbar zu machen,
3:39
obwohl das Modell laut den Tokenkosten
3:41
über die API sowohl im Input als auch im
3:44
Output doppelt so teuer ist wie Opus
3:46
4.8. Das heißt, sie wollten einfach nur
3:48
der Menschheit da draußen zeigen, wie
3:49
stark dieses Modell ist. Und ich kann
3:51
mir sehr gut vorstellen, dass sie nach
3:52
einem Monat dann gesagt hätten, okay,
3:54
das Modell ist ziemlich krass, ne? Ihr
3:55
habt's jetzt ausprobiert, wir können das
3:57
aber nicht mehr den Abonnements zur
3:58
Verfügung stellen. Also musst du das
3:59
leider über die API nutzen. Das heißt,
4:01
man hat gesehen, wie stark dieses Modell
4:02
ist und wie viel man damit machen kann
4:04
und man gewöhnt sich natürlich auch an
4:05
diese Leistung und möchte das weiterhin
4:07
nutzen und ist dann aber auch natürlich
4:09
viel mehr bereit dafür, ziemlich teure
4:10
Tokenpreise zu bezahlen. Und die
4:12
Tokenpreise sind auch jetzt nicht ohne,
4:14
also $ pro eine Million Output Tokens
4:16
und 50$ pro eine Million Output Tokens.
4:19
Und theoretisch kann diese Preise von
4:21
heute auf morgen einfach höher stellen
4:22
und das trifft dann natürlich jeden, der
4:24
seine Systeme, seine Automatisierungen,
4:26
seine ganzen Workflows auf dieses Modell
4:28
aufgebaut hat. Das heißt, das macht dich
4:29
ziemlich abhängig. Und der zweite Punkt
4:31
ist natürlich das Thema Daten. Google,
4:33
Anthropic, Open AI und alle anderen
4:35
großen Teagfirmen sind am schärfsten
4:37
darauf und entsprechend viel sammeln sie
4:39
auch. Und dass das nicht immer gut
4:41
endet, sieht man aber auch sehr
4:42
regelmäßig. Immer öfter kommt es zu
4:44
irgendwelchen Data Breaches bei größeren
4:46
Firmen. Erst Anfang des Jahres wurde bei
4:48
einer KI Chat App aufgrund einer
4:49
Fehlkonfiguration ein Datenl entdeckt,
4:52
bei dem rund 300 Millionen Nachrichten
4:54
von etwa 25 Millionen Nutzern offen im
4:56
Netz lagen. Auch Open AI musste bereits
4:58
in Vorfall einräumen, bei denen Namen
5:00
und Mailadressen abgeflossen sind. Und
5:02
die Reaktion bei diesen Film ist dann
5:03
meistens immer so, ja, tut uns leid, ne,
5:05
ist halt passiert, ja, können wir jetzt
5:07
auch nichts mehr machen. Aber wir werden
5:09
natürlich in Zukunft darauf achten, dass
5:10
das nicht noch mal passiert. Und ich
5:12
weiß, das ist den meisten auch schon
5:13
klar, aber ich will es trotzdem noch mal
5:15
erwähnen. Alles, was du in ChatGPT oder
5:17
in Cloud oder in Gemini hier
5:18
reinschreibst, landet am Ende auf
5:20
fremden Servern und du musst darauf
5:22
vertrauen, dass dort sorgfältig mit
5:24
diesen Daten umgegangen wird. Und wegen
5:26
diesen zwei Punkten ist lokale KI
5:28
natürlich sehr interessant, nicht
5:29
unbedingt als Ersatz für alles, sondern
5:31
auch eher als zweites Standbein. Also,
5:33
dass du einfach etwas hast, das
5:34
funktioniert, egal, was die Anbieter
5:36
gerade entscheiden und bei dem deine
5:38
Daten deinen Rechner nicht verlassen.
5:40
Ich bin jetzt z.B. gerade mein LM Studio
5:42
und habe hier das Gamma 4 Modell mit 12
5:44
Milliarden Parametern runtergeladen und
5:46
ich habe jetzt auch definitiv nicht den
5:47
krassesten PC hier stehen, aber schau
5:49
mal bitte, wie schnell mir das Modell
5:50
antwortet, wenn ich frage, was kannst
5:52
du? Das ist ja eigentlich genauso
5:53
schnell, wie man das auch von JGPT
5:55
kennt. Und es gibt sogar eine Version
5:57
von dem Modell, das Bilder verstehen
5:59
kann. Also, es ist ein multimodales
6:00
Modell. Das heißt, ich kann jetzt z.B.
6:02
das Foto von den vier Hunden hier
6:03
nehmen, hier einfügen und sagen, was
6:04
siehst du hier? Und wir sehen, das ist
6:06
auch ein Thinking Modell. Also die
6:07
Version gibt's auch, dass es erstmal
6:08
nachdenkt, bevor es eine Antwort gibt
6:10
und sehen sogar schon, dass er das Bild
6:12
analysiert, ne? Der erste Hund ganz
6:14
links, der zweite Hund, dritte Hund,
6:16
vierte Hund. Auf diesem Bild sieht man
6:17
vier verschiedene Hunde, die fröhlich
6:18
über eine grüne Wiese direkt auf die
6:20
Kamera zulaufen. Genau richtig. Und auch
6:23
wenn du jetzt überhaupt keine Hardware
6:24
hast, um solche Lokalmodelle laufen zu
6:26
lassen, gibt es immer noch Alternativen.
6:27
Wir haben auch in Europa bereits die
6:29
Möglichkeit auf gute KI zurückzugreifen,
6:31
nämlich bei Mistral. Die Modelle von
6:33
Mistral haben sich in den vergangenen
6:35
Monaten auch sehr sehr stark verbessert,
6:37
weswegen man für sehr viele
6:38
Anwendungsfälle auch die amerikanischen
6:39
Modelle gar nicht mal nutzen muss. Der
6:41
Punkt ist einfach, sich nicht von einem
6:42
einzigen Anbieter abhängig zu machen und
6:44
sich langfristig breiter aufzustellen.
6:46
Wenn du jetzt aber wirklich auf lokale
6:48
KI gehen willst, ist diese nicht nur aus
6:50
Unabhängigkeitssicht spannend, sondern
6:52
mittlerweile auch technisch sehr
6:53
spannend. und zwar, weil die Modelle
6:55
immer effizienter werden. Klar, bei den
6:57
ganz großen Anbietern geht's immer noch
6:59
darum, ne, immer größere Modelle, immer
7:01
mehr Parameter, immer besser mehr
7:03
Rechenleistung. Aber es gibt jetzt eben
7:05
auch den anderen Trend und der ist für
7:06
uns viel interessanter, wenn es um
7:07
lokale KI geht, nämlich möglichst
7:09
effiziente Modelle für möglichst kleine
7:12
Hardware. Vor allem die Chinesen
7:13
verfolgen diesen Ansatz und das wird
7:14
auch immer wichtiger, weil Hardware ja
7:16
eher teuer wird als billiger. Und das
7:19
sieht man vor allem an den RAMpreisen,
7:20
die steigen schon seit Monaten und das
7:23
ist auch kein Zufall. Denn der KI Boom
7:25
frisst eigentlich die ganzen
7:26
Produktionskapazitäten der
7:28
Speicherhersteller. Die bauen jetzt vor
7:29
allem eben den speziellen Speicher für
7:31
KI Rechenzentren und für normalen
7:33
Arbeitsspeicher bleibt einfach weniger
7:35
übrig. Das heißt, weniger Angebot,
7:37
trotzdem noch steigende Nachfrage, also
7:39
steigen die Preise. Umso besser, aber,
7:41
wenn die KI Modelle auch weniger
7:42
Hardware benötigen, um trotzdem gut zu
7:44
laufen. Man stellt sich dann natürlich
7:46
trotzdem die Frage, okay, reichen diese
7:47
kleinen Modelle überhaupt? Und für die
7:49
absolute Spitze von Aufgaben natürlich
7:51
nicht, das muss man ganz klar sagen,
7:53
aber für den Großteil der alltäglichen
7:54
Aufgaben, also Texte entwerfen,
7:56
zusammenfassen, umformulieren und Fragen
7:59
beantworten, dafür reichen diese Modelle
8:01
schon völlig aus. Und das sieht man auch
8:03
ganz konkret an Modellen, wie z.B. die
8:05
Gammer Modelle von Google. Das sind
8:07
kleine Modelle, die genau dafür gemacht
8:09
sind, lokal zu laufen, von Varianten
8:12
fürs Handy bis zu größeren, die trotzdem
8:14
auf einen normalen Rechner passen. Und
8:16
vor allem die chinesischen Labs treiben
8:17
diese Effizienz besonders hart voran.
8:19
Und das hat auch einen Grund, denn durch
8:21
die US Exportbeschränkungen kommen sie
8:23
an die besten und teuersten KI Chips gar
8:25
nicht erst ran. Das heißt, sie müssen
8:27
also das Maximum aus schwächerer
8:30
Hardware herausholen und genau das hat
8:32
ihre Modelle auch so effizient gemacht.
8:34
Deepsieg z.B. ist dadurch im Betrieb
8:37
deutlich günstiger als die großen
8:39
US-Modelle, hat aber es trotzdem
8:41
geschafft, sehr sehr ähnliche Leistungen
8:43
abzuliefern. Aber das machen wie gesagt
8:45
nicht nur die Chinesen und Google sagt,
8:46
du kannst Scammer schon auf einem ganz
8:48
normalen Laptop mit rund 16 GB RAM
8:50
laufen lassen und zwar auch ohne
8:52
Grafikkarte. Man muss natürlich dazu
8:54
sagen, ohne Grafikkarte läuft es
8:55
deutlich langsamer, aber du kannst es
8:57
trotzdem nutzen. Und 16 GB RAM hat heute
8:59
fast jeder Laptop, vielleicht sogar
9:00
einer, der bei dir noch irgendwo
9:01
rumliegt. Erst für die richtig großen
9:03
Modelle brauchst du eine sehr gute
9:04
Grafikkarte mit auch wirklich viel VRAM.
9:07
Das heißt, lokale KI wird sowohl aus
9:09
politischer und Unabhängigkeitssicht als
9:11
auch aus technischer Sicht besonders
9:12
interessant. Und jetzt wollen wir uns
9:13
gemeinsam anschauen, wie denn überhaupt
9:15
die Arbeit mit lokalen KI Modellen
9:16
aussehen kann. Wie kann man sich das
9:18
komfortabel einrichten, damit es sich
9:20
auch so anfühlt, als würde man einfach
9:21
JGBT oder Cloud nutzen. Und es gibt eben
9:24
lokale Programme wie Olama oder auch LM
9:26
Studio, bei denen du dir lokale Modelle
9:28
einfach runterladen kannst. Ich kann
9:30
hier z.B. links auf Model Search gehen
9:32
und sehe hier einige Modelle, die ich
9:34
einfach direkt herunterladen kann, wie
9:35
eben z.B. hier Gamma 4 mit 12 Milliarden
9:38
Parametern. Das Modell ist 7 GB groß und
9:41
ich kann jetzt hier mit diesem Modell
9:42
schreiben. Ich kann auch hier rechts
9:44
Dateien hochladen oder auch Bilder und
9:46
dann auch z.B. über die Dateien chatten.
9:48
Aber mir persönlich fehlen hier bei LM
9:50
Studio oder auch bei Olama noch einige
9:51
Möglichkeiten, die man vielleicht von
9:53
CHGPT kennt. Z.B. die Deep Research
9:55
Funktion oder auch die Möglichkeit
9:58
Dokumente zu bearbeiten, also nicht nur
10:00
hochzuladen und darüber zu schreiben,
10:01
sondern z.B. einen Dokumenteneditor,
10:03
der, wenn jetzt hier ein Text generiert
10:05
wird, hier rechts aufgeklappt wird und
10:07
man dort sogar dann einfach
10:08
weiterschreiben kann, um den Text
10:09
anzupassen oder auch irgendwie so eine
10:11
Agent Funktionalität, denn sehr viele
10:12
von diesen Modellen können auch Tools
10:14
ausführen. Das heißt, damit haben wir
10:16
ein Modell, das nicht nur Antworten
10:17
geben kann, sondern auch wirklich
10:18
Aufgaben erledigen kann. Und ich weiß,
10:20
es gibt Tools wie Hermes, die in diese
10:21
Richtung gehen, ne, die einfach Aufgaben
10:23
für dich abnehmen und das funktioniert
10:24
auch alles mit lokalen Modellen. Das ist
10:26
auch schön und gut, aber ich wollte
10:27
jetzt einfach diese Standard KI
10:29
Oberfläche wie bei Chat GPT oder Cloud,
10:31
wo man einfach nur schreiben kann, mit
10:32
Dokumenten arbeiten kann und so weiter,
10:34
vielleicht auch seine E-Mails, sein
10:35
Kalender und sowas zugreifen kann, nur
10:37
eben lokal. Und da bin ich dann über ein
10:39
Open Source Projekt namens Odysseus
10:41
gestoßen, dass eben genau diese
10:43
Kapazitäten, also Chats, Agents,
10:46
Recherche, Dokumenten, E-Mails, Notizen,
10:48
Kalender und eben auch lokale Workflows
10:50
in einem Programm vereint. Und das Ganze
10:52
läuft bei mir jetzt hier lokal und ich
10:54
habe hier rechts genauso wie jetzt in LM
10:57
Studio oder Olama hier ein paar Modelle
10:59
angebunden, wie z.B. das Scammer 4
11:01
Modell. Ich kann hier rechts auswählen,
11:02
ob ich einfach nur chatten möchte oder
11:04
eben auch die Agent Funktionalitäten
11:05
brauche. Also sowas, dass er auch lokal
11:07
Code ausführen kann oder dass er eben
11:09
z.B. im Internet recherchieren kann. Und
11:11
ich finde die Integrationen hier mega
11:12
cool. Man hat z.B. die Möglichkeit
11:14
direkt sein E-Mailpostfach anzubinden.
11:16
Ich habe jetzt einfach mal irgendeine
11:17
Mail hier geöffnet und kann hier z.B.
11:19
auch direkt mit dem lokalen Modell die
11:21
Mail zusammenfassen hier oben. Ich kann
11:22
sogar von der KI eine Nachricht
11:24
generieren lassen. Hey there, thanks for
11:26
the Update blablabla. Ich kann dir jetzt
11:27
auch direkt hier unten verschicken. Das
11:29
heißt, ich kann jetzt ziemlich schnell
11:30
eben meine ganzen Mails bearbeiten und
11:32
dabei alles lokal auf meinem Rechner.
11:34
Man kann eben auch so verschiedene Tabs
11:35
öffnen und die dann halt irgendwo
11:36
hinziehen. Und es kommen noch weitere
11:38
nützliche Funktionen hinzu, wie z.B. das
11:40
Brain. Hier merkt sich das System Sachen
11:42
über mich. Also, ich habe z.B. letztens
11:43
geschrieben, dass meine Lieblingsfrucht
11:45
Wassermelone ist und das hat er sich
11:46
dann hier gespeichert. Wenn ich z.B.
11:48
schreibe, mein Lieblingssport ist
11:49
Fußball, dann sehen wir jetzt hier, dass
11:51
das Modell das erkennt als Fakt und das
11:53
jetzt eben in das Memory speichert. Das
11:55
heißt, die Funktion, dass ich das
11:56
Programm auch etwas über dich merkt, so
11:58
wie bei JGBT oder Cloud gibt es hier
12:00
auch. Wenn ich hier zurück zum Brain
12:01
gehe, sehe ich ganz genau, der
12:03
Lieblingssport des Benutzers ist
12:04
Fußball. Ich kann hier eigene Memories
12:06
anlegen und ich kann sogar Skills
12:07
importieren, ne? Das sind ja wichtige
12:09
Anleitungen für agentische Systeme,
12:11
damit die bestimmte Aufgaben einfach
12:13
immer wieder erledigen können, ohne dass
12:15
du dich neu erklären musst. Und ich habe
12:16
jetzt hier unter den Skills auch z.B.
12:18
schon den Skill Creator Skill
12:19
heruntergeladen, der offiziell von
12:21
Anthropic erstellt wurde, um eben den im
12:23
Sprachmodellen zu erklären, wie sie
12:25
Skills erstellen können, wenn ich jetzt
12:26
einen eigenen Skill anlegen möchte.
12:28
Sowas kannst du z.B. auch bei Cloud
12:30
anlegen, aber eben auch bei Odyssey
12:32
haben ja sogar einen eingebauten
12:33
Kalender, das heißt hier kann das Modell
12:35
dann drauf zugreifen. Wir können ja
12:37
Termine eintragen und eben auch auslesen
12:39
und man kann auch seine eigenen Termine
12:40
hier importieren. Ich persönlich würde
12:42
das jetzt wahrscheinlich nicht so viel
12:43
nutzen, aber ich finde es trotzdem eine
12:44
coole Idee. Was ich auch sehr cool
12:46
finde, ist die Compare Funktion. Da
12:48
kannst du verschiedene Modelle, die du
12:49
hier installiert hast oder die du dann
12:51
auch per API auswählen kannst, wenn du
12:53
jetzt nicht lokal arbeiten möchtest,
12:54
miteinander vergleichen. Und das kannst
12:56
du sogar blind machen, damit du nicht
12:58
voreingenommen bist. Ganz oft willst du
13:00
ja sehen, wie verschiedene Modelle auf
13:01
einen prompt antworten und dann nimmst
13:03
du einfach die beste Antwort für dich.
13:06
Ich kann auch den Typ auswählen, also
13:07
soll das jetzt im Chat getestet werden,
13:09
in der Agent Funktionalität, in der
13:11
Websuche oder auch in der
13:12
Tiefenrecherche, wir machen es jetzt
13:14
einfach mal im Chat. Ich habe z.B. das
13:15
Quen 3 Modell jetzt hier und auch Gamma
13:17
4 und ich kann jetzt beiden Modellen
13:19
dieselbe Aufgabe stellen. Schreibe ein
13:21
Gedicht über Elefanten und ich sehe
13:23
jetzt nicht, welches Modell welches ist
13:24
und weil meine Grafikkarte jetzt nicht
13:26
beide Modelle gleichzeitig packt, wird
13:27
erstmal Modell A jetzt hier ausgeführt
13:29
und dann Modell B. Und dann haben jetzt
13:31
beide Modelle hier was geschrieben und
13:32
ich kann jetzt entscheiden, welches ich
13:33
davon mehr mag. Und wenn ich jetzt hier
13:35
unten auf Reveal klicke, sehe ich jetzt
13:36
oben, welches Modell das eigentlich war.
13:39
Das find ich schon eine ziemlich coole
13:40
Funktion, auch nicht nur mit lokalen
13:42
Modellen, sondern wenn du auch über die
13:43
API verschiedene größeren Modelle mal
13:46
testen möchtest. Was auch sehr gut ist
13:47
bei Odysseoice, ist die Deep Research
13:49
Funktion. Du gibst hier oben einfach nur
13:50
eine Frage ein und der recherchiert dann
13:52
erstmal zu dem Thema und schreibt dann
13:54
einen sehr ausführlichen Artikel. Ich
13:56
habe ja z.B. gestern schon die Frage
13:57
gestellt, was ist ein Agent Harness und
13:59
wie funktioniert sowas? Und was ich mega
14:01
cool finde, ist, dass du nicht einfach
14:02
nur einen Text zurückbekommst, sondern
14:05
einen vollständigen Blogartikel, der
14:06
richtig gut aussieht, auch optisch, den
14:09
du theoretisch auch direkt als
14:10
Blogartikel posten kannst. Und hier
14:12
sehen wir dann den gesamten Artikel,
14:13
können uns den durchlesen, der ist schön
14:15
formatiert und ganz unten können wir
14:17
sogar auf Discuss gehen und dann können
14:19
wir sogar direkt über diese Recherche
14:21
noch mal mit unserem Agenten chatten.
14:22
Und es gibt weitere Funktionen, wie z.B.
14:24
Notizen, die man sich direkt anlegen
14:25
kann. Man kann sogar Aufgaben sofort
14:27
tracken und eben auch von der KI hier
14:29
erstellen lassen. Du kannst, wie du
14:30
lustig bist, hier auch das Theme ändern,
14:32
ne? Also falls hier irgendwie ein
14:34
anderes Design noch mehr liegt, kannst
14:37
du das ganz einfach hier einstellen.
14:39
Kannst s aber natürlich auch frei
14:40
anpassen. Und natürlich kannst du auch
14:42
mit Dokumenten arbeiten. Das macht man
14:44
hier unter Library. Hier kannst du
14:46
Dokumente hochladen, auf die die Modelle
14:48
dann auch zurückgreifen können. Und was
14:49
ich eben auch sehr cool finde, ist die
14:51
Dokumentenbearbeitung. Ich kann jetzt
14:52
z.B. sagen, ich möchte einen Blogartikel
14:54
haben über lokale KI und dieser soll
14:56
eben in der Library abgespeichert
14:57
werden. Dann kann ich hier auf Library
14:59
gehen und sehe hier dann den Artikel und
15:01
ich kann den Artikel dann auch direkt
15:02
öffnen und dann öffnet sich hier rechts
15:04
so ein Fenster, wo ich den Artikel dann
15:06
auch direkt bearbeiten kann. Also ich
15:08
kann hier dann selber reinschreiben,
15:10
denn der KI Text ist natürlich nie
15:12
wirklich so perfekt, dass man ihn
15:14
einfach so lassen kann. Man möchte
15:15
natürlich hier noch was reinschreiben,
15:17
mal ein paar Sachen anpassen, mal
15:18
irgendwas rausstreichen, wie auch immer.
15:20
Und das kann ich jetzt problemlos machen
15:21
und das dann einfach abspeichern. Das
15:23
ist z.B. für eine Sache, die mich bei
15:24
Cloud sehr stört, denn ich habe dem
15:25
jetzt hier die gleiche Aufgabe gegeben
15:27
und der hat dann hier auch ein Dokument
15:28
erstellt, hier eine Mark Datei und ich
15:31
kann die einfach nicht bearbeiten. Also
15:32
ich kann hier nicht reinklicken, ich
15:33
kann nur Kommentare geben, aber ich kann
15:35
hier nicht direkt reinschreiben und das
15:37
ist finde ich einfach ziemlich nervig,
15:39
weil ich dann wieder ein anderes
15:40
Dokument öffnen muss, ein anderes
15:41
Programm, nur um hier den Text zu
15:43
bearbeiten. Und falls du jetzt auch
15:45
selber keine Ahnung hast, was für lokale
15:46
Modelle du überhaupt laufen lassen
15:48
kannst auf deinem PC, kannst du hier
15:49
auch ins Cookbook reinschauen. Hier
15:51
unten werden dir dann Modelle empfohlen,
15:53
die zu deiner Hardware passen, denn das
15:54
ist vor allem auch als Anfänger ziemlich
15:56
schwer einzuschätzen, was kann überhaupt
15:57
auf meinem PC laufen. Und wie gesagt, du
15:59
kannst hier auch jederzeit Modelle per
16:02
API hinzufügen, ne, weil du jetzt
16:04
irgendwie mit stärkeren Modellen
16:05
arbeiten willst. Kannst ja z.B. auch
16:07
direkt MAL verbinden, wenn du jetzt mit
16:10
europäischen Anbietern arbeiten
16:11
möchtest. Und eine letzte Sache noch,
16:13
dann höre ich auch auf, aber ich finde
16:14
es einfach mega cool. Es gibt ja auch
16:15
die Galerie, das heißt, du kannst hier
16:17
Bilder hochladen und diese sogar direkt
16:19
bearbeiten. Also, ich habe jetzt hier
16:20
z.B. mein letztes Video Thumbnail und
16:23
hier kann ich das Bild bearbeiten. Ich
16:24
kann hier mit so einer Brush drüber
16:26
gehen, wenn ich möchte. Ich kann
16:27
natürlich auch hier mit dem Radiergummi
16:30
drüber. Es gibt sogar eine Impaint
16:31
Funktion und auch so ein Background
16:33
Removal, aber ja, das finde ich einfach
16:35
so ein cooles nices Addon. Vielleicht
16:36
ist ja für den ein oder anderen ganz
16:37
nützlich. Das Projekt wurde übrigens von
16:39
PewDiePie gemacht, einer der größten
16:41
YouTuber überhaupt, der sich aber gerade
16:43
sehr stark auf lokale KI spezialisiert.
16:45
Fand ich ganz witzig. Wenn du dir es
16:46
lokal installieren willst und das noch
16:47
nie so vorher gemacht hast, würde ich
16:49
dir definitiv empfehlen, da mit Cloud
16:51
gemeinsam, also Cloud Code oder auch
16:53
Codex zu arbeiten, denn du kannst Cloud
16:55
Code auch einfach den Link zu diesem
16:56
Repository geben, ich verlinke dir den
16:58
auch in der Videobeschreibung und sagen,
16:59
du möchtest das gerne installieren. COD
17:01
wird das dann für dich machen, wird dir
17:02
vielleicht sagen, was du noch brauchst
17:03
und du wirst bestimmt mal auf das eine
17:05
oder andere Problem stößen bei dem
17:06
Programm, das Claud dann aber auch
17:08
relativ leicht für dich lösen kann. Das
17:09
Problem bei mir war z.B., dass ich diese
17:11
lokalen Modelle nicht mit meiner
17:12
Grafikkarte nutzen konnte. Ich wusste
17:14
nicht, warum. Ich habe das dann aber
17:15
einfach nur Cloud gesagt und er hat das
17:17
dann sofort gelöst und alles
17:18
eingerichtet und der hat dann natürlich
17:19
auch Zugriff auf Odysseis und kann dort
17:22
ganze Einstellungen konfigurieren für
17:23
dich, sodass du am Ende einfach nur mit
17:25
Cloud Code gemeinsam das Setup machst
17:27
und dann Odysseys lokal für dich nutzen
17:29
kannst. Das würde ich dir definitiv
17:30
empfehlen und das geht auch damit
17:31
relativ zügig. Jetzt kann es vielleicht
17:33
sein, dass deine Hardware auch nicht
17:34
ausreicht, um jetzt hier gute lokale
17:37
Modelle laufen zu lassen. Oder
17:38
vielleicht hast du selber auch gar keine
17:39
Lust, das alles lokal laufen zu lassen,
17:41
möchtest aber trotzdem sowas wie Odysse
17:43
nutzen, die aber trotzdem Kosten sparen
17:45
und nicht 90 € im Monat für ein Cloud
17:47
Abonnement ausgeben. Und vielleicht
17:48
willst du sowas wie Odysseys auch nicht
17:49
nur hier auf deinem Rechner nutzen,
17:51
sondern das von überall aus erreichen,
17:52
von egal welchem Gerät. Und da will ich
17:54
jetzt auch noch mal mehr auf den dritten
17:55
Punkt eingehen, denn klar, du machst
17:56
dich natürlich komplett unabhängig, wenn
17:58
du alles lokal hostest, aber was sind
18:00
dann noch Alternativen, wie du dich
18:01
trotzdem noch unabhängiger machen
18:03
kannst, auch wenn du jetzt nicht alles
18:04
lokal bei dir hosten kannst. Und dafür
18:07
habe ich eine Tabelle erstellt, die
18:08
zeigt, welche Alternativen es noch gibt
18:10
und was da so die Vor und Nachteile
18:12
sind. Wenn du komplett lokal unterwegs
18:13
bist, ist es aus Datensicherheit
18:14
natürlich perfekt. Auch die
18:16
Nutzungslimits sind unbegrenzt und du
18:18
hast auch eigentlich keine Kosten, außer
18:20
natürlich den Strom, den du zahlst für
18:22
deine Höllenmaschine, die du dann
18:24
vielleicht zu Hause stehen hast. Wenn du
18:25
jetzt sagst, Datensicherheit ist für
18:27
dich jetzt nicht so das oberste Thema
18:28
und du möchtest einfach nur solche Open
18:30
Source Projekte wie Odysseys nutzen,
18:32
aber im Hintergrund günstige Modelle,
18:34
die aber wirklich leistungsstark sind
18:36
und du auch gar keine Nutzungslimits
18:38
hast, dann würde ich dir empfehlen über
18:39
die API zu gehen. Das heißt, du zahlst
18:41
dann wirklich pro Token, den du
18:42
verbrauchst und es gibt Plattformen wie
18:44
z.B. Open Router, auf denen du auf alle
18:48
Sprachmodelle, die es da draußen gibt,
18:49
zugreifen kannst. Das heißt, du musst
18:51
dir dort nur einmal einen API erstellen,
18:53
ein paar Credits hochladen und dann
18:55
kannst du eigentlich alle Modelle
18:56
nutzen, denn Open Routrouter leitet die
18:57
Anfragen dann einfach nur an die
18:59
entsprechenden Anbieter weiter. Und das
19:00
Gute da ist auch, du zahlst eben nur für
19:02
deine Nutzung, das heißt, du hast keine
19:04
Basisgebühr jeden Monat und es gibt eben
19:06
auch sehr gute Modelle, eben chinesische
19:09
Modelle wie z.B. GLM 5.2, das ist vor
19:12
kurzem erst rausgekommen und ich bin ja
19:13
jetzt auf dem Artificial Analysis
19:15
Leaderboard. Hier sieht man immer so,
19:16
was so die besten Modelle sind aktuell
19:18
und was sie so kosten und wir sehen ja
19:20
natürlich Cloud Fable, Cloud Opus 4.8
19:22
und eben GPT 5.5, aber nicht weit unten
19:24
sehen wir eben auch schon die
19:25
chinesischen Modelle, die im Vergleich
19:27
deutlich günstiger sind. Also wir sehen
19:29
jetzt hier pro 1 Million Input und
19:31
Output Tokens blendet, also das jetzt
19:32
sozusagen der durchschnittliche Preis,
19:34
kostet es nur 90$ Cent, während hier
19:37
z.B. GPT 5.5 schon $ kostet und die
19:40
anderen Modelle sind auch ungefähr bei $
19:42
und Cloud Fable ist natürlich super
19:43
teuer und das obwohl es sehr ähnliche
19:45
Leistungen bietet und sogar ein
19:47
Kontextfenster von 1 Million Tokens hat.
19:49
Das sind 750 000 Wörter. Wenn ich ein
19:51
bisschen weiter runter scroll sehe ich
19:52
sogar hier Deep Seek V4 Pro. Auch ein
19:55
sehr gutes Modell und es kostet nur 18$
19:58
Cent. Das ist überhaupt gar nichts. Und
19:59
deswegen würde ich dir auch empfehlen,
20:01
wenn du über die API gehen willst und
20:03
unbegrenzte Nutzung haben möchtest und
20:05
es für dich kein Problem ist, wenn deine
20:06
Daten in China landen, dann nutzt sowas
20:08
wie Deeps V4 oder eben auch GLM 5.2.
20:11
Wenn du jetzt aber sagst, das Thema
20:12
Datensicherheit ist dir schon wichtig,
20:14
aber du hast trotzdem nicht die nötige
20:15
Hardware, um KI Modelle lokal laufen zu
20:17
lassen, dann würde ich dir die Olama
20:19
Cloud empfehlen. Olama stellt nämlich
20:21
auch GPU Server zur Verfügung. Das
20:23
heißt, Open Source Modelle hosten die
20:25
dann auf ihrer Infrastruktur und die
20:27
werben eben mit einer deutlich
20:28
stringeren Datenschutzregelung als die
20:30
großen US-Anbieter. Konkret mit Zero
20:32
Data Retention, also keiner Speicherung
20:34
deiner Anfragen. Die sagen hier eben
20:36
auch konkret keep your data private. Man
20:38
muss natürlich dazu sagen, dass die
20:40
Daten trotzdem in den USA landen. Das
20:42
heißt, sie sagen zwar, deine Daten sind
20:43
privat, aber am Ende des Tages verlassen
20:45
sie trotzdem dein Gerät. Von daher ist
20:47
es immer ein Tradeoff. Das Gute ist
20:49
aber, du kriegst dir dafür die großen
20:51
Open Source Sprachmodelle wie z.B. z.B.
20:52
GLM5.2 oder auch Deepseak V4, die mit
20:55
sehr hoher Wahrscheinlichkeit nicht auf
20:57
deiner lokalen Hardware aufpassen, für
20:58
sogar schon 0 $ und im ProLAN eben nur
21:01
für $ im Monat. Und die hosten eben alle
21:03
Open Source Modelle. Hier sieht man z.B.
21:04
jetzt oben auch das neue Gill M5.2. Das
21:07
heißt, wenn du die Modelle auch wirklich
21:08
viel nutzt, dann lohnt es sich
21:10
vielleicht sogar einfach über das
21:11
Abonnement zu gehen und einfach nur
21:12
einmal flat 20$ zu zahlen im Monat. Und
21:14
du hast hier eben den Vorteil, dass
21:16
Olama einen Fokus auf private Daten
21:18
legt. Ob das dann am Ende genau stimmt,
21:20
kann man natürlich nie genau sagen. Das
21:21
heißt, das sind so eigentlich die drei
21:23
Alternativen zu dem Standard US
21:25
Abonnement, wo du dann natürlich den
21:27
Vorteil genießt, die absolut besten
21:29
Modelle zu nutzen, die es gerade gibt.
21:30
Wenn du dich jetzt für die beiden
21:31
mittleren Optionen hier entscheidest,
21:33
also ne günstige API Modelle oder Olama
21:36
Cloud, dann würde ich dir auch definitiv
21:37
empfehlen und Odisoys nicht lokal auf
21:39
deinem Rechner laufen zu lassen, sondern
21:41
auf einem Server, der auch
21:42
hundertprozentig dir gehört, denn da
21:43
hast du den Vorteil, dass du von jedem
21:45
Gerät aus jederzeit darauf zugreifen
21:47
kannst, auch wenn dein PC aus ist. Das
21:49
heißt auch vom Handy. Und ich persönlich
21:50
hoste alle meine Anwendungen bei
21:52
Hostinger. Da habe ich einen Server, wo
21:53
jetzt auch mehrere Programme laufen, wie
21:55
z.B. Odysseys, aber auch mein Hermis. Es
21:57
gibt dir den Docker Manager, wo du
21:59
jederzeit verschiedenste neue
22:01
Applikationen wie z.B. Oddysois einfach
22:04
direkt installieren kannst und das ganze
22:06
Setup wird vollständig von Hostinger
22:07
übernommen und das macht es natürlich
22:08
deutlich einfacher direkt loszulegen,
22:10
wenn man keine Ahnung von Server hat.
22:12
Falls du noch keinen Server hast, kannst
22:13
du auch über so ein Oneclick Install
22:14
Template einen Server kaufen, wo
22:16
Odisseys dann auch direkt drauf
22:18
installiert ist. Und wenn du jetzt auch
22:19
planst mehrere Anwendungen zu
22:20
installieren, wie z.B. Hermis oder auch
22:22
N8N oder andere Open Source Projekte,
22:24
dann würde ich dir den KFM 2 Plan
22:26
empfehlen. Den nutze ich selber und
22:27
hatte bis jetzt noch keine Probleme,
22:29
auch wenn ich mehrere Programme
22:30
installiert habe. Und wie gesagt, der
22:32
Server gehört hundertprozentig dir, nur
22:33
du hast darauf Zugriff und der
22:35
Serverstandort ist eben auch in
22:36
Deutschland. Das ist ganz wichtig und
22:38
ich finde eben die Kombination aus
22:39
Hostinger, welche die günstigen Server
22:40
bereitstellt und Olama Cloud, welche die
22:43
günstigen Modelle anbietet mit Fokus auf
22:45
Datensicherheit eigentlich die perfekte
22:47
Kombi. Du kannst dir übrigens mit dem
22:48
Code Jujan Ivanov noch mal 10 % auf alle
22:50
Jahrespläne sparen. Nach dem
22:51
Zahlungsvorgang wird Odysse für dich
22:53
installiert und dann landest du auch
22:54
hier im Server Dashboard und hier kannst
22:56
du dann Odysseis direkt öffnen und damit
22:57
läuft Odyssey auch geschützt im
22:59
Internet. Du kannst es erreichen und
23:00
kannst dich hier einloggen. Ich habe
23:01
jetzt unten rechts z.B. Open Router
23:03
verbunden und habe deswegen Zugriff auf
23:05
alle Sprachmodelle, die es da draußen
23:06
gibt. Wenn du jetzt die Verbindung mit
23:08
Olama Cloud machen möchtest, würde ich
23:09
dir einfach empfehlen, kurz Cloud zu
23:10
fragen, dir bei der Einrichtung zu
23:12
helfen. Du musst dafür eigentlich nur
23:13
noch als zusätzliche Anwendung hier im
23:15
Katalog Olama installieren, genauso wie
23:17
du es lokal installieren würdest und
23:19
dort musst du dich dann mit deinem
23:20
Account anmelden und kannst dann auf
23:21
alle Modelle zugreifen und die auch bei
23:23
Odysse verknüpfen. Aber wie gesagt, hier
23:25
kann dir Cloud auch step by Step helfen.
23:27
Das war's auch schon. Damit haben wir
23:28
uns jetzt auch angeschaut, was man noch
23:29
für Alternativen hat, wenn man es nicht
23:31
alles lokal machen kann. Du weißt jetzt
23:32
auch Bescheid, warum lokale KI immer
23:34
interessanter wird. Die Modelle sind
23:36
mittlerweile echt ziemlich gut geworden,
23:37
auch bei nicht leistungsstarker
23:39
Hardware. Und klar, man kommt nicht an
23:40
die Topmodelle ran und für viele Sachen
23:42
reicht es vielleicht auch noch nicht,
23:43
aber es ist trotzdem gut, dass wir uns
23:45
mit dem Thema beschäftigen, um einfach
23:46
nur ein zweites Standbein zu haben und
23:48
uns unabhängiger von den US-Anbietern
23:49
machen können. Falls dir das Video
23:51
weitergeholfen hat, dann lasst doch
23:52
gerne ein Like und ein Abo da, um
23:53
weiteren KI Content nicht zu verpassen.
23:55
Ich bedanke mich herzlich fürs Zuschauen
23:56
und würde sagen, wir sehen uns beim
23:57
nächsten Video wieder. Bis dann.