Wlog…ig schreiben
– wir zeigen, wie es geht.

Verstehen, was KI versteht

KI ist ein stochastischer Papagei, sagen die einen. KI versteht uns, sagen die anderen. Die Wahrheit ist komplizierter, spannender und für unsere tägliche Arbeit mit KI erstaunlich fruchtbar. Eine Spurensuche zwischen Philosophie und Praxis: Warum wir verstehen sollten, was KI wirklich versteht.

Neulich in einem Workshop zur Unternehmenssprache. Ein Jurist, skeptisch bis wohlwollend, schüttelt den Kopf und sagt: „Diese KI versteht doch gar nichts. Die plappert nur nach. Garbage in, garbage out.“ Ein paar Plätze weiter meldet sich eine junge Kollegin aus dem Marketing: „Also ich hab gestern mit KI über unsere Markenwerte gesprochen, und die hat mich besser verstanden als mein Chef.“ Erst Gelächter, dann: nachdenkliche Stille. Denn beide haben einen Punkt. Und doch ist es nicht das ganze Bild.

Die Frage, ob KI „versteht“, ist keine philosophische Fingerübung für den Elfenbeinturm. Sie hat direkte Auswirkungen darauf, wie gut wir mit KI arbeiten. Wer versteht, was die KI versteht, holt mehr aus ihr heraus.

Der stochastische Papagei – ein irreführendes Bild

Sie haben den Begriff vermutlich schon gehört: „Stochastischer Papagei.“ Die KI plappert nur nach, was sie in Milliarden von Texten gelesen hat, ohne irgendwas davon zu begreifen. Klingt einleuchtend. Ist aber irreführend.

Denn „stochastischer Papagei“ meint im Kern: Das System findet das nächstwahrscheinliche Wort. So weit, so richtig. Aber das wäre dann ungefähr so wie die Autokorrektur auf Ihrem Smartphone. Und Hand aufs Herz. Hat Ihre Autokorrektur jemals einen Text produziert, der auch nur entfernt an das erinnert, was ein großes Sprachmodell leistet? Eben.

Was moderne Sprachmodelle tun, geht deutlich über das bloße Aneinanderreihen wahrscheinlicher Wörter hinaus. Sie kombinieren, sie entwickeln Gedanken weiter, sie formulieren auf verschiedenen Abstraktionsebenen. Sie erkennen bestimmte Formen von Ironie, passen sich an Tonalitäten an und können komplexe Argumentationsketten nachvollziehen. Das ist kein Nachplappern. Aber ist es verstehen?

Das Chinesische Zimmer: Als die Sache noch klar war

Um das Jahr 1980 herum war die Antwort noch eindeutig: nein. Der Philosoph John Searle ersann dazu ein berühmt gewordenes Gedankenexperiment – das Chinesische Zimmer.

Stellen Sie sich vor: Sie sitzen in einem geschlossenen Raum. Durch einen Schlitz werden Ihnen Zettel mit chinesischen Schriftzeichen hereingereicht. Sie selbst sprechen kein Wort Chinesisch. Aber Sie haben ein dickes Regelbuch, das Ihnen genau sagt: Wenn diese Zeichenkombination reinkommt, schreibe jene Zeichenkombination als Antwort. Sie folgen den Regeln, schieben die Zettel zurück – und für die Menschen draußen sieht es so aus, als würde jemand im Zimmer fließend Chinesisch sprechen. Aber verstehen Sie Chinesisch? Natürlich nicht. Sie manipulieren Symbole nach formalen Regeln, ohne deren Bedeutung zu kennen.

Searles Schlussfolgerung war radikal: Syntax allein ergibt keine Semantik. Wer nur Symbole nach Regeln verschiebt, versteht nichts. Egal wie überzeugend die Antworten aussehen. Für die damalige KI war das ein starkes Argument. Einfache Expertensysteme, regelbasierte Programme. Da konnte man klar unterscheiden zwischen Mensch und Maschine.

Aber dann kamen die großen Sprachmodelle. Und plötzlich ist nichts mehr klar.

Am Rand des Grabens: Was LLMs mit Searles Trennung machen

Searle zog also eine klare Linie: auf der einen Seite Syntax (Symbole nach Regeln verschieben, kein Verstehen), auf der anderen Semantik (Bedeutung, echtes Begreifen). Dazwischen ein Graben. Seine These: Kein Computer überquert diesen Graben. Egal wie gut seine Antworten aussehen.

40 Jahre lang war dieser Graben tief. Dann kamen die großen Sprachmodelle und haben sich direkt an seinen Rand gestellt. Ob sie ihn zumindest teilweise überquert haben? Sie tun zumindest Dinge, die Searle für unmöglich hielt. Dazu 3 Beobachtungen:

1) LLMs tun mehr als Syntax

Searles Chinesisches Zimmer folgt starren Wenn-Dann-Regeln. LLMs tun das nicht. Sie erkennen, dass „Bank“ je nach Kontext etwas anderes bedeutet, von der Sitzbank über die Werkbank bis zur Weltbank. Sie können zwischen den Zeilen lesen, bilden Analogien zwischen Bereichen, die auf den ersten Blick nichts miteinander zu tun haben. Manche Forschende sprechen hier von funktionaler Semantik: einer Bedeutungsverarbeitung, die im Sprachkontext funktioniert, ohne dass dahinter ein verstehendes Subjekt steht. Das Wort „Bank“ wird nicht nur als Zeichenkette erkannt, sondern im Satzkontext richtig eingeordnet. Das ist mehr als hirnlose Symbolschieberei.

2) LLMs können über sich selbst sprechen

Ein Schachcomputer von 1990 konnte brillant Züge berechnen. Aber wenn man ihn fragte: „Was machst du gerade?“, kam nichts. Null Kontext. Null Einordnung. Ein LLM kann diese Frage beantworten. Es kann erklären, warum es einen bestimmten Zug gewählt hat. Es kann seine eigene Argumentation reflektieren, Widersprüche benennen, die Perspektive wechseln. Es kann einen Text in verschiedenen Tonalitäten umschreiben, von professionell bis empathisch. Es kann Metaphern richtig deuten und neue bilden.

Ist das schon (Selbst-)Bewusstsein? Nein. Aber es ist auch nicht mehr das Chinesische Zimmer, in dem jemand stumpf Zettel hin- und herschiebt. Wie viel davon ist echtes konzeptuelles Verstehen und wie viel raffinierte Musterimitation? Darüber streitet die Fachwelt. Aber selbst kritische Philosophen sehen hier einen qualitativen Sprung, den sie noch vor kurzem ausgeschlossen haben.

3) Was LLMs fehlt: die „Lebenswelt“

Und hier bleibt Searle relevant. Was LLMs nicht können: begreifen, was etwas für ein Lebewesen bedeutet. Welche Konsequenzen eine Handlung hat, weil man selbst in der Welt steht. Welche Dinge wirklich zusammengehören, weil man sie erfahren hat und mit Bio-Intentionalität bewertet. Das ist Searles Punkt, und er trägt in gewisser Weise bis heute. Syntax allein reicht nicht für echtes Verstehen. Und LLMs haben mit ihrer funktionellen Semantik zwar mehr als Syntax, aber auch weniger als Lebenswelt.

3 Zonen statt 2 Seiten

Searles scharfe Zweiteilung reicht also nicht mehr. Was wir heute sehen, lässt sich besser als 3 Zonen beschreiben:

Syntax ist die reine Regelwelt. Symbole verschieben, ohne Bedeutung. Das war die KI von gestern: Searles Chinesisches Zimmer, Expertensysteme, regelbasierte Programme.

Semantik ohne Erleben ist das, was heutige LLMs leisten. Sie navigieren durch Bedeutungszusammenhänge, sie erkennen Kontext und Zusammenhänge. Aber sie erleben nichts davon im menschlichen Sinne. Um im Bild zu bleiben: Sie wissen zwar noch nicht, wie chinesisches Essen schmeckt. Aber wenn es um dieses Essen geht, wissen sie, welche Gerichte es gibt, mit welchen Zutaten gekocht wird, wie der Mensch die Speisen beschreibt und welche Gewürze zusammenpassen. Funktionales Verstehen eben.

Semantik mit Erleben ist das, was uns Menschen immer noch abhebt. Wir verstehen nicht nur Bedeutungszusammenhänge, wir sind Teil der Welt, über die wir sprechen. Metaphorisch gesprochen: Wir stehen im Gelände, nicht nur auf der Karte.

Nicht Bibliothek, sondern Werkbank: So funktioniert das semantische Netzwerk

Aber wie macht die KI das? Im Kern verwandelt ein großes Sprachmodell jedes Wort in eine Zahlenreihe – einen sogenannten Vektor. Stellen Sie sich diesen Vektor wie eine Adresse auf einer riesigen Bedeutungslandkarte vor. Wörter mit ähnlicher Bedeutung liegen dort nah beieinander: „Hammer“ und „Werkzeug“ sind Nachbarn, „Hammer“ und „Kräuterbutter“ wohnen hingegen in verschiedenen Stadtteilen. Sie haben in den meisten Kontexten weniger Bedeutungsnähe.

Die über 4 Billionen Parameter (immerhin eine Zahl mit 11 Nullen!) eines großen Sprachmodells sind der Orientierungssinn dieser Landkarte. Sie sagen der KI, welchen Weg sie gehen muss, um das nächste bedeutungsmäßig passende Wort zu finden. Das ist etwas grundlegend anderes als „das statistisch häufigste Wort“ einer Autokorrektur. Es ist das kontextuell stimmigste.

Und dieses vieldimensionale Netzwerk aus Bedeutungsbeziehungen ist weit mehr als ein Archiv oder eine Bibliothek, in der Wissen brav in Regalen steht. Es kann als generative Werkbank dienen: Begriffe werden dort nicht nur einsortiert, sondern zu neuen Gedanken zusammengebaut. Wenn wir das wollen, dann können neue Verbindungen zwischen weit entfernten Ecken des Bedeutungsraums können entstehen – und genau daraus können sinnvolle, sogar überraschende Ideen hervorgehen.

Ein Experiment: Geben Sie einer KI 3 Begriffe, die noch nie kombiniert wurden – zum Beispiel „Spaziergang“ + „Übersetzer“ + „Erinnerungsort“. Was daraus entstehen kann, ist faszinierend: etwa die Idee eines Systems, das beim Gehen durch eine Stadt nicht nur Straßennamen erklärt, sondern persönliche, historische und kulturelle Ebenen übereinanderlegt. „Hier stand früher …“, „Dieser Platz ähnelt dem Ort aus deiner Kindheit …“. Also kein Navigationsgerät, sondern ein Bedeutungsführer für Orte.

Kreativität entsteht oft genau dort: nicht im bekannten Bereich, sondern an den unerwarteten Brücken zwischen weit entfernten Bedeutungsecken.

Warum es sich nach Verstehen anfühlt

Aber warum wirkt es dann so, als würde die KI uns verstehen, wenn sie doch „nur“ mit Bedeutungsrelationen arbeitet?

Die Antwort ist verblüffend menschlich: Weil wir Verstehen im Alltag vor allem an sprachlichen Beziehungen erkennen. An passenden Begriffen. An sinnvollen Übergängen. An stimmigen Antworten. Wenn jemand im Gespräch den richtigen Ton trifft, die passende Metapher wählt und auf unsere Gedanken eingeht, dann fühlt sich das nach Verstehen an. Ob Mensch oder Maschine.

Die KI bewegt sich genau entlang dieser Bedeutungsrelationen. Und weil unsere gesamte Lebenswelt in Sprache kodiert ist, unsere Erfahrungen, unser Wissen, unsere Zusammenhänge, klingt die KI manchmal, als käme sie aus derselben Lebenswelt wie wir. Aber sie kommt nicht von dort. Sie hat diese Beziehungen nur aus Texten gelernt, nicht aus dem Leben.

Ihr Verstehen ist aus unserem in Sprache gegossenen Verstehen synthetisiert. Aber es ist kein „inneres“ Verstehen im Sinne eines Erlebens. Die KI hat gelernt, wie wir über die Welt reden. Nicht, wie es ist, in ihr zu leben.

Erstaunliche Ähnlichkeiten zwischen KI und menschlichem Denken

Semantische Räume: Infos werden nach Bedeutung und Ähnlichkeit sortiert
Mustererkennung: Beide Systeme finden Strukturen in großen Datenmengen
Assoziationen: Bedeutung entsteht aus gelernten statistischen Zusammenhängen

Fundamentale Unterschiede zwischen KI und „MI“

Körperlichkeit: Menschen erleben mit echten körperlichen Sinnen
Bewusstheit: Die KI agiert im Bedeutungsnetzwerk, wir in Bewusstsein und Intention
Kausalität: Wir können Ursachen explorieren, KI erkennt (aktuell) nur Muster

Der Prompt als Wegbeschreibung: Kontext ist alles

Jetzt wird es praktisch. Denn wenn wir verstehen, wie die KI versteht, können wir ihre Funktionalität viel besser erschließen. Der Schlüssel heißt: Kontext.

Ein Prompt ist keine bloße Frage oder Anweisung. Ein Prompt ist eine Wegbeschreibung durch den Bedeutungsraum. Je mehr passenden Kontext wir mitgeben, desto genauer kann sich die KI in die richtige „Ecke“ des semantischen Netzwerks bewegen und die gemeinten Zusammenhänge richtig einordnen.

Ein Beispiel aus unserer Praxis: Wer die KI bittet „Schreib mir einen freundlichen Beschwerdetext“, bekommt einen generischen Text. Wer dagegen schreibt: „Du bist Kundenberaterin bei einer regionalen Versicherung mit folgenden Werten (Wert A, B, C…). Der Ton ist persönlich, aber respektvoll. Die Kundin ist verärgert, weil die Schadensregulierung 3 Wochen dauert. Sie hat ein berechtigtes Anliegen. Schreib eine Antwort auf Sprachlevel B2″, der aktiviert genau die Bedeutungsbeziehungen, die gebraucht werden.

Kontext ist wie eine Wegbeschreibung auf der Bedeutungslandkarte: Er führt die KI in die richtige „Bedeutungs-Ecke“, damit dort die passenden Verbindungen aktiviert werden. Ohne Kontext irrt sie herum. Mit Kontext findet sie Wege.

Wer also etwas mehr Zeit in den Prompt investiert, spart nicht nur bei der Nachbearbeitung, sondern erhält auch erstaunlich relevante Antworten.

Kartenverstehen und Geländeverstehen: Wo KI mehr kann – und wo weniger

Im Fazit lässt sich das KI-Verstehen vielleicht am besten mit 2 Begriffen fassen: Kartenverstehen und Geländeverstehen. Die Metapher liegt nahe, denn wir haben ja bereits von der Bedeutungslandkarte gesprochen.

Kartenverstehen, bei uns Menschen oft „kognitives Verständnis“ genannt, meint das Nachvollziehen von Bedeutungszusammenhängen, Mustern und Strukturen. Die KI hat die beste Karte der Welt. Hier kann sie tatsächlich oft mehr als wir, weil sie Zugriff auf mehr Parameter hat. Sie kann in Sekundenbruchteilen Verbindungen zwischen Tausenden von Konzepten herstellen, die ein einzelner Mensch niemals gleichzeitig im Blick hätte. Und viele unserer menschlichen Denkvorgänge sind ebenso „kognitives Verständnis“, wenn wir z. B. Mathematik oder Grammatik lernen.

Geländeverstehen, bei uns oft „emotionales Verständnis“ oder lebensweltliches Begreifen genannt, meint: das reale Gelände kennen. Zu verstehen, welche Dinge in der Welt wirklich zusammengehören, weil man sie erfahren hat. Zu begreifen, welche Konsequenzen etwas für Lebewesen hat, was sie erleben, was auf dem Spiel steht. Wer nur die Karte liest, weiß nicht, dass der Weg nach dem Regen matschig ist. Hier kann die KI weniger als wir – auch wenn sie unsere Lebensbezüge aus den Texten herausgelesen hat und so verstehen simuliert. Sie hat aber keinen Körper, keine Not. Sie erlebt nichts, hat keinen Hunger und friert nicht. Sie ist nicht Teil der Welt, über die sie spricht. Zumindest heute nicht und in absehbarer Zukunft auch nicht.

Man könnte versuchen, das KI-Verstehen auf der Stufe eines Kindes zu beschreiben. Aber auch das greift nicht. Ein Kind kennt zwar wenig von der Karte, dafür aber das Gelände, in dem es lebt. Die KI kennt die gesamte Karte, aber kein einziges Stück Gelände. Die Analogie scheitert, weil das KI-Verstehen sich in keine menschliche Kategorie pressen lässt.

Das Alien mit dem Fernrohr: Ein Fazit

KI versteht anders als wir. Nicht weniger und nicht mehr, sondern anders. Sie versteht einen Teil, der auch für unser menschliches Begreifen zentral ist: Bedeutungszusammenhänge, die in der Sprache stecken. Sie kann sie erkennen, verknüpfen und auf Wunsch auch weiterdenken. Aber sie versteht auch weniger, weil ihr die Lebenswelt fehlt, aus der diese Bedeutungen stammen.

Es ist ein bisschen wie ein Alien, das auf einer anderen Welt lebt und uns durch ein Fernrohr studiert. Es kennt unsere Sprache, unsere Texte, unsere Geschichten. Es kann erstaunlich kluge Dinge über uns sagen. Aber es weiß nicht, wie sich unsere Welt anfühlt – weil seine eigene eine ganz andere ist. (Auch wenn der Vergleich hinkt, weil das Alien im Gegensatz zur KI wahrscheinlich eine Lebenswelt hat.)

Für die Praxis heißt das: Behandeln wir die KI nicht wie einen allwissenden Guru. Aber auch nicht wie einen dummen Papageien. Behandeln wir sie wie das, was sie ist: eine brillante funktionale Bedeutungsmaschine, die am besten funktioniert, wenn wir ihr den richtigen Kontext geben und verstehen, was sie versteht. Und die am schlechtesten funktioniert, wenn wir glauben, eine vage Frage reiche aus.

Wie könnte die Zukunft aussehen? Ein Ausblick

In der KI-Debatte fällt immer häufiger ein Begriff: AGI, Artificial General Intelligence. Gemeint ist eine KI, die „endlich“ so denkt, versteht und handelt wie ein Mensch. Klingt nach einem logischen Ziel – schließlich war unser Verständnis schon immer die Blaupause für ihre Entwicklung. Aber wer sich mit den Verstehensebenen beschäftigt, merkt: Darin steckt möglicherweise ein grundlegender Irrtum.

Denn die Annahme hinter AGI ist oft diese: Menschliches Verstehen bildet die Spitze, und KI muss dort hinaufklettern. Stufe für Stufe, bis sie oben ankommt. Erst Syntax, dann Semantik, dann Erleben, dann ist sie „fertig“ oder kann uns überholen. Aber was, wenn Verstehen gar keine Leiter ist?

Die verschiedenen Verstehensbereiche, die wir beschrieben haben (syntaktisch, funktional-semantisch, lebensweltlich), müssen bei genauerer Betrachtung keine Hierarchie darstellen. Sie sind eher Domänen. Eigenständige Verstehensbereiche mit eigenen Stärken. Die KI hat uns in einigen dieser Bereiche bereits überholt. Sie wird es wahrscheinlich auch in weiteren tun. Aber das heißt nicht, dass sie es in unserem lebensweltlichen Bereich tun muss. Oder sollte.

Ist eine KI, die unsere emotionale Instabilität mitbringt, überhaupt wünschenswert? Eine Maschine, die unter Stress schlechtere Entscheidungen trifft? Die Vorurteile nicht nur aus Daten lernt, sondern auch aus eigenem Antrieb entwickelt? Die gekränkt reagiert oder aus Eitelkeit handelt? Es ist zumindest fraglich, ob das einen gewünschten Mehrwert bietet.

Dass wir uns intuitiv als Referenzpunkt für KI definieren, ist bei genauerer Betrachtung eine typisch menschliche Verzerrung. Dachten wir nicht auch einmal, wir wären der Mittelpunkt des Kosmos? Dann kam Kopernikus. Hielten wir uns nicht für die Krone der Schöpfung? Bis Darwin kam. Und jetzt halten wir unser Verstehen für den Maßstab, an dem sich jede Intelligenz messen muss. Vielleicht irren wir uns wieder.

Die Menschheit entdeckt gerade, welche Möglichkeiten ein menschenunabhängiges Verstehen eröffnet. Eine KI, die nicht versucht, uns zu kopieren, sondern Muster erkennt, die weit über unsere Wahrnehmung hinausreichen. KI-Systeme entdecken bereits Zusammenhänge in biologischen Daten, in Klimamodellen, in Materialforschung, die Menschen verborgen geblieben sind. Nicht, weil die KI universell klüger ist. Sondern weil sie anders und in gewissen Bereichen tiefer versteht und größere Muster erkennt.

Das ist vielleicht die eigentlich spannende Perspektive: Nicht die Frage „Wann wird KI so wie wir?“, sondern „Was kann eine Intelligenz leisten, die nicht so ist wie wir?“ Die beste Zusammenarbeit entsteht ja bekanntlich nicht zwischen Gleichartigem, sondern zwischen Verschiedenem.

Sie wollen diese Verschiedenheit für Ihre Unternehmenstexte nutzen? Wir begleiten Sie gerne auf diesem Weg. wortwelt^® arbeitet täglich mit dieser Maschine. Unser Eindruck: Wer versteht, was die KI versteht, schreibt bessere Texte. Weil die KI uns hilft, klarer zu denken, präziser zu formulieren und unsere eigenen Klischees zu erkennen (siehe unser letzter Blog).

Offenlegung: Menschliche Ideen, Formulierungen und Kreativität waren zentral bei der Erstellung dieses Textes. Künstliche Intelligenz wurde unterstützend eingesetzt beim Formulieren, Überarbeiten und Recherchieren.

Axel Ebert, Partner bei wortwelt® und identifire®

Axel Ebert – „der mit dem Wort tanzt.“ Wortpflanzungswillig gründete er 2001 die wortwelt^®. Der Psychologe brachte bereits 1995 Wording-Know-how aus den USA mit. In über 150 wortwelt-Projekten für Unternehmen und Verwaltungen hat er sich als „Letter-Man“ etabliert.

+43 664 88 44 7112
axel.ebert@wortwelt.at

Wlog…ig schreiben – wir zeigen, wie es geht.