In letzter Zeit werde ich sehr häufig gefragt, wie eine künstliche Intelligenz wie chatGPT eigentlich funktioniert. Den Menschen fällt auf, dass die Antworten, die chatGPT ihnen gibt, in den meisten Fällen unfassbar gut sind. Selbst auf so absurde Dinge wie „Schreibe einen biblischen Vers im Stile der König James Bibel, der erklärt, wie man ein Erdnussbutter-Sandwich aus einem Videorekorder entfernt.“ Auf der anderen Seite scheitert(e bis vor kurzem) chatGPT zum Teil an so banalen Dingen, wie „Schreibe Banane rückwärts“. Wie kann das sein?
Zunächst einmal: chatGPT ist keine Wissensdatenbank. Es ist ein Sprachmodell, dass lediglich Wahrscheinlichkeiten von Wortfolgen berechnet hat. Dazu wurden tausende Texte und Webseiten analysiert. Wikipedia, Kindergeschichten, Gedichte und Märchen bis hin zu Zeitungsartikeln über Politik, Morde, Demos und Reitturniere.
Doch was sind Wahrscheinlichkeiten von Wortfolgen? Dieser Text beginnt mit „In letzter …“ Wenn ich Sie frage, welches Wort nun folgen wird, werden die meisten spontan „Zeit“ sagen, manche „Konsequenz“ und noch weniger nennen „Instanz“. chatGPT weiß das, weil in den 45 TB an Texten, an denen es gelernt hat, auch am häufigsten „Zeit“ vor „Konsequenz“ vor „Instanz“ nach einer Einleitung von „In letzter …“ folgt.
Es weiß auch, dass nach dem Wort „Pferd“ (zwar nicht unmittelbar aber) sehr häufig Begriffe wie „Fell“, „Hufe“, „Mähne“ und „Schweif“ folgen. Und zwar in ganz vielen Texten auf Wikipedia, bei „Bibi und Tina“ und in Berichten über Reitturniere. Nur sehr selten folgten auf „Pferd“ die Worte „Flügel“, „Federn“, „Schuppen“ oder „Krallen“.
Bitten wir chatGPT nun ein Pferd zu beschreiben, wird es das aus reiner Wahrscheinlichkeit mit Fell, Hufen, einer Mähne und einem Schweif ausstatten – und uns als Fragesteller verblüffen, wie gut es ein Pferd beschreiben kann und „weiß“, dass es Fell und keine Federn hat.
Nur warum scheitert(e) die KI daran, „Banane“ rückwärts zu schreiben? Ganz einfach, weil es in den Trainingsdaten wenige oder gar keine Texte gab, in denen die Worte „Banane“, „rückwärts“ und „enanab“ aufeinander folgen.
Manchmal erfindet chatGPT auch Antworten, was „Halluzination“ genannt wird. So zum Beispiel, als ein Rechtsanwalt eine gerichtliche Eingabe mit der Auflistung möglichst vieler Präzedenzfälle von chatGPT hat schreiben lassen. Die KI wusste zwar, welche Worte (wahrscheinlich) in einer gerichtlichen Eingabe vorkommen und schrieb diese auch korrekt. Bei den Referenzen wusste es jedoch nur, wie diese im Text auszusehen hatten und erfand einfach ein halbes Dutzend davon à la „Schrödel gg Ramsauer OLG Landsberg AZ 4711 / 2021„.
Der Anwalt hat die Halluzination der KI nicht bemerkt, der Richter und die Anwälte der Gegenseite hingegen schon. Ich bin mir aber sicher, dass chatGPT dem schummelnden Advokaten hervorragende Antworten auf unbequeme Fragen der Anwaltskammer formulieren wird. Es ist sehr wahrscheinlich, dass darin das Wort „Entschuldigung“ vorkommt. Das Wort „Federn“ hingegen (wahrscheinlich) auch dieses Mal nicht.
Hey chatGPT,
bitte aktualisiere deine Datenbank: Es heißt …. Demos und Reittuniere ;-)
Habe ich wahrscheinlich gemacht. Danke.