Wie funktioniert ein Sprachmodell? — KI-Magie ohne Mathe.
Du tippst eine Frage. Zwei Sekunden später formuliert die KI eine flüssige, kluge Antwort. Wie macht sie das? Die ehrliche Antwort ist seltsamer, als du denkst — und in 10 Minuten ohne eine einzige Formel zu verstehen.
Die ehrlichste Erklärung, die du je über Sprachmodelle hören wirst: ChatGPT denkt nicht. Es schreibt. Wort für Wort. Jedes Wort eine Wette darauf, was statistisch am besten zum Vorherigen passt. Klingt enttäuschend? Ist es nicht. Es ist der Trick, warum das überhaupt funktioniert.
In den nächsten 10 Minuten verstehst du, wie ein Sprachmodell von "leerer Datei" zu "weiß was du willst" wird. Ohne Mathe, ohne Code, ohne dass du dich danach dumm fühlst. Dafür mit drei Alltagsbildern, die du nicht mehr vergisst.
Bild 1: Der Praktikant mit der Bibliothek im Kopf
Stell dir einen Studenten vor, der die letzten drei Jahre nichts anderes getan hat, als zu lesen. Bibliotheken, Wikipedia, Online-Foren, Romane, Fachbücher, Tageszeitungen, Reddit-Threads, Code-Repositories. Insgesamt mehrere Milliarden Seiten Text.
Er hat kein Verständnis im philosophischen Sinn entwickelt. Er hat keinen Körper, keine Gefühle, keine eigene Meinung. Was er hat, ist ein ungeheuer feines Gefühl dafür, wie Sprache funktioniert. Welche Wörter aufeinander folgen. Welche Sätze sich nach einer Frage anhören. Welche Antwortformate auf Tutorials, Briefe, Witze, Gedichte oder Code passen.
Das ist ein Sprachmodell. Nicht mehr, nicht weniger. Ein extrem belesener Praktikant, der Texte fortsetzt — und zwar so gut, dass es uns wie Denken vorkommt.
Bild 2: Die königliche Auto-Vervollständigung
Du kennst Auto-Vervollständigung von deinem Handy. Tippst "Ich komme gleich", und die Tastatur schlägt "nach Hause" vor. Sprachmodelle sind das gleiche Prinzip — nur mit deutlich mehr Geld, Strom und Trainingsdaten dahinter.
Wenn du fragst: "Was ist die Hauptstadt von Frankreich?", sieht das Modell intern ungefähr so aus:
Was ist die Hauptstadt von Frankreich? Die Hauptstadt von Frankreich ist [???]
Und dann fragt es sich: Welches Wort folgt hier am wahrscheinlichsten? Auf Basis von Milliarden Texten, die es gelesen hat, ist die Wahrscheinlichkeit, dass jetzt "Paris" kommt, gigantisch höher als jedes andere Wort. Also: Paris.
Dann das nächste Wort. Und das nächste. Bis das Modell spürt: "Hier ist eine vollständige Antwort, ich kann aufhören". Und genau das tut es.
Bild 3: Der Bibliothekar mit dem Lineal
Aber wie weiß das Modell, dass "Paris" das wahrscheinlichste Wort ist? Hier kommt der eigentliche Trick: Beim Training wurden Milliarden von Sätzen analysiert. Jedes Mal, wenn das Modell ein Wort falsch vorhersagte, wurden seine inneren "Stellschrauben" minimal nachjustiert.
Bei einem modernen Modell wie GPT-4 sind das circa 200 Milliarden Stellschrauben — die sogenannten Parameter. Jede einzelne ist eine kleine Wahrscheinlichkeits-Information. Zusammen ergeben sie ein extrem feines Gefühl dafür, welches Wort zu welchem Kontext passt.
Das Training dauert Monate, kostet Millionen, läuft auf tausenden parallel arbeitenden Grafikkarten. Wenn es fertig ist, hat das Modell ein eingefrorenes Sprachgefühl. Bis zum nächsten Training-Update weiß es nichts Neues mehr — egal was in der Welt passiert.
Warum hält sich der Praktikant dann manchmal für einen Professor?
Hier kommt die unangenehme Wahrheit: Das Modell weiß nicht, was es nicht weiß. Wenn du es nach einer Person fragst, über die es nichts in den Trainingsdaten gelernt hat, erfindet es etwas Plausibles. Mit Geburtsdatum, Wohnort, Beruf, Werdegang. Alles ausgedacht. Das nennt man Halluzination.
Der Praktikant weiß nicht, dass er gerade lügt. Er macht das, was er immer macht: das wahrscheinlichste Wort vorhersagen. Wenn nach einer Frage Biographie-Texte gut passen, schreibt er eine Biographie. Ob sie wahr ist, kann er nicht beurteilen.
Warum klingt das Modell trotzdem oft besser als ein Mensch?
Weil es eine ungeheure Menge guter Texte gelesen hat. Wenn du fragst "Wie schreibe ich eine professionelle Reklamations-Mail?", hat es Millionen davon gesehen. Es kennt die Form, den Ton, die typische Struktur, die höflichen Floskeln, die rechtlich wichtigen Formulierungen.
Es schreibt also nicht aus Wissen, sondern aus Routine. Eine Routine, die so dicht ist, dass sie jeden übertrifft, der nicht schon zwanzig Reklamationsschreiben verfasst hat.
Das ist das eigentliche Wunder von Sprachmodellen: Sie machen Routineformulierungen verfügbar, an die du als Mensch nie kommen würdest, weil du nicht 5 Millionen Reklamationsbriefe in deinem Leben gelesen hast.
Was passiert nach deiner Eingabe? Schritt für Schritt.
Hier in absoluter Kurzform, was zwischen "Du drückst Enter" und "Antwort erscheint" passiert:
- 1. Tokenisierung. Dein Satz wird in kleine Einheiten zerlegt — nicht Worte, sondern Token. "Sprachmodell" könnte z.B. zu drei Token werden: "Sprach", "modell", "[ENDE]".
- 2. Einbettung. Jeder Token wird in eine Liste von Zahlen umgewandelt — einen sogenannten Vektor. So wird Sprache mathematisch greifbar.
- 3. Verarbeitung. Die Token-Vektoren werden durch das Modell geschickt. Jede Schicht justiert die Vektoren leicht, basierend auf dem Kontext.
- 4. Vorhersage. Am Ende berechnet das Modell für jeden möglichen nächsten Token eine Wahrscheinlichkeit.
- 5. Auswahl. Das wahrscheinlichste Token wird gewählt (oder eines der oberen, je nach Temperatur) und an die Antwort angehängt.
- 6. Wiederholung. Schritte 3-5 wiederholen sich, bis ein "[ENDE]"-Token kommt. Dann steht deine Antwort.
Pro Token dauert das alles 5-30 Millisekunden. Bei einer Antwort von 300 Wörtern (ca. 400 Token) bist du in 4-10 Sekunden fertig. Bei lokalen Modellen auf normalen Rechnern manchmal etwas länger.
Was Sprachmodelle gut können, was schlecht
Nach allem, was du jetzt weißt, kannst du die Stärken und Schwächen vorhersagen:
Das können sie gut
- Routine-Texte (E-Mails, Zusammenfassungen, Anschreiben, Reden) — weil davon viele in den Trainingsdaten waren.
- Stil-Imitationen (Hemingway, juristisch, akademisch, kindergerecht) — weil sie Stile als Muster gelernt haben.
- Code in gängigen Sprachen (Python, JavaScript) — weil GitHub ein Schwergewicht der Trainingsdaten ist.
- Übersetzungen zwischen den 20-30 verbreitetsten Sprachen.
- Brainstorming — weil sie aus Milliarden Texten Verbindungen ziehen können, die kein Mensch parat hat.
Das können sie schlecht
- Aktuelle Ereignisse (nach ihrem Knowledge-Cutoff) — sie wissen nichts darüber.
- Konkrete Zahlen und Statistiken — halluzinieren gern.
- Logisches Schritt-für-Schritt-Denken bei komplexen Mathe-Aufgaben — sie sind Sprache-Maschinen, keine Rechenmaschinen.
- Werturteile mit Konsequenzen (medizinische Diagnose, Rechtsberatung) — weil sie wahrscheinliche, nicht richtige Antworten geben.
- Spezialwissen, das nicht offen im Web stand — deine Firma, deine Familiengeschichte, neue Forschung.
Eine Vorhersage, die dich vielleicht überrascht
Sprachmodelle werden nicht "schlauer" im menschlichen Sinn werden. Sie werden größer, schneller, multimodaler (Bilder, Audio, Video). Sie werden besser an Spezialdaten anzubinden sein (Stichwort RAG). Sie werden Werkzeuge bedienen können (Stichwort Agentic AI).
Aber sie werden im Kern genau das bleiben, was sie heute sind: extrem feine Auto-Vervollständigung. Wer das verstanden hat, hat einen massiven Vorsprung gegenüber Leuten, die glauben, da spricht jemand mit ihnen.
Was du jetzt damit machen kannst
- Frag das Modell, was es nicht weiß. Du wirst überrascht sein, wie oft ein modernes Modell ehrlich sagt: "Dafür habe ich keinen verlässlichen Datenstand". Das ist gut. Trau ihm in diesen Momenten.
- Prüfe jede Zahl, die es nennt. Wenn dir die KI sagt "Berlin hat 3,8 Millionen Einwohner", googel es. Halluzinations-Übung. Mach das bewusst drei Wochen lang — du wirst kalibriert sein.
- Lies "Halluzinationen erkennen" als nächstes. Wenn du jetzt verstanden hast, warum Modelle halluzinieren, weißt du auch, wann — und kannst gegensteuern.
Fazit: Ein Sprachmodell ist kein digitales Bewusstsein. Es ist eine ungeheuer gut belesene Sprach-Maschine, die das wahrscheinlichste nächste Wort vorhersagt. Diese Erkenntnis ist nicht enttäuschend. Sie ist befreiend. Du bist jetzt nicht mehr beeindruckt — du bist informiert. Damit nutzt du KI ab heute besser als 95 % der Menschen.
Lies weiter mit Snow Academy — ab 14 €/Monat.
Dieser Artikel ist Teil der gepflegten Snow Academy. Mit einem Privat- oder Business-Abo bekommst du vollen Zugriff auf alle Artikel, Quizze und das Zertifizierungs-Programm.