Ihr Ziel ist es, menschliche Sprache zu interpretieren, zu verarbeiten und zu erzeugen sowie weitere Aufgaben im Bereich der Natural Language Processing (NLP) zu erledigen, wie beispielsweise Übersetzungen, Erkennung von Kundenanliegen oder die Analyse von Stimmungen in Texten. Im November 2022 erschien mit ChatGPT ein öffentlicher Zugang zu einem generativen Sprachmodell als Webchat, das alle bisherigen in den Schatten stellte. Die Antworten wirken natürlich und es ist weniger anfällig, toxische Inhalte zu produzieren, als frühere Sprachmodelle. Aber was ist bei ChatGPT anders als bei vorherigen Modellen? Und weshalb führt diese Entwicklung dazu, dass Unternehmen den Einsatz generativer Sprachmodelle in Betracht ziehen sollten? Welche neuen Einsatzmöglichkeiten ergeben sich?
Um diese Fragen zu beantworten, schauen wir uns kurz einen Teil der Geschichte großer Sprachmodelle an.
Evolution großer Sprachmodelle
Frühe Sprachmodelle haben recht einfache statistische Methoden verwendet. Das war in vielen Fällen funktional, beispielsweise bei der Erkennung von Anliegen in E-Mails. Gleichzeitig kamen diese Modelle an ihre Grenzen, sobald die Inhalte komplexer wurden oder der erweiterte Kontext einer Aussage relevant wurde. Das änderte sich mit der Einführung neuronaler Netze wie Recurrent Neural Networks (RNN) oder Long Short-Term Memory Networks (LSTMs), die immer besser darin wurden, Kontexte zu verstehen. Diese Systeme hatten aber weiterhin Herausforderungen damit, sehr lange Sequenzen zu verstehen und sind durch die sequentielle Verarbeitung recht langsam.
Ein riesiger Meilenstein in der Entwicklung von Sprachmodellen war die Vorstellung der Transformerarchitektur durch Google Researcher 2017 mit dem Paper “Attention is all you need”. Im Gegensatz zu traditionellen, sequenziellen Verarbeitungsmodellen wie RNNs oder den daraus entstandenen LSTMs, die Eingaben Schritt für Schritt verarbeiten, ermöglichen Transformermodelle eine effektivere Behandlung von Textdaten. Sie tun dies durch die Implementierung eines innovativen Mechanismus, der als 'Self-Attention' bezeichnet wird. Während LSTMs bereits Attention-Mechanismen nutzen, um wichtige Informationen aus einer Sequenz hervorzuheben, stellen Transformermodelle den Attention-Mechanismus in den Mittelpunkt ihrer Architektur.
Self-Attention erlaubt es dem Modell, die Beziehungen zwischen allen Worten in einem Satz simultan zu erfassen, indem es Aufmerksamkeitsgewichte berechnet, die anzeigen, wie stark jedes Wort des Eingabetextes mit anderen Worten in Beziehung steht. Jegliche Beziehung zwischen den einzelnen Elementen der Inputsequenz untereinander wird dabei unabhängig erfasst, ohne durch die sequenzielle Natur früherer Modelle eingeschränkt zu sein. Dadurch kann das Transformermodell kontextuelle Informationen effizienter nutzen. Es bewertet und gewichtet die Eingabesequenz, um zu bestimmen, welche Teile für die aktuelle Aufgabe am relevantesten sind. Beispielsweise kann das Modell bei der Übersetzung eines Satzes die Bedeutung eines Wortes im Kontext des gesamten Satzes verstehen, anstatt sich nur auf die umliegenden Wörter zu konzentrieren. Die Fähigkeit von Transformern, weitreichende Abhängigkeiten direkt zu modellieren, ohne dass Informationen durch viele Zwischenschritte fließen müssen, ist ein entscheidender Vorteil.
Dadurch können die Modelle sowohl die komplexen Beziehungen zwischen Worten als auch ihre Position im Satz verstehen, was zu einer verbesserten Verarbeitung und Generierung von Sprache führt.
Eines der bekanntesten und immer noch viel verwendeten Transformermodelle ist das Open Source Modell BERT, welches ebenfalls von Google vorgestellt wurde. Das Modell wird beispielsweise für die Erkennung von Anliegen oder Emotionen feinabgestimmt. Seit der Einführung des BERT-Modells sind viele weitere Modelle hinzugekommen, darunter XLNET, GPT3, LAMBDA, MT NLG, OPT und BLOOM. BERT ist ein recht großes Modell, mit einer Größe, die zwischen 110 Millionen und 340 Millionen sogenannten "Parametern" variiert. Andere Modelle, wie GPT3 oder MT NLG, sind jedoch weitaus größer und umfassen bis zu 175 Milliarden bzw. 340 Milliarden Parameter. Parameter sind im Wesentlichen "Einstellungen" oder "Stellschrauben", die das Modell nutzt, um zu lernen und Vorhersagen zu treffen. Die Anzahl der Parameter bestimmt, wie detailliert und anpassungsfähig das Modell ist. Es hilft dem Modell, komplizierte Muster zu erkennen und Kontexte besser zu verstehen.
Einige dieser Modelle, wie GPT3, können "generativ" arbeiten – das heißt, sie können selbstständig Texte generieren und sind direkt für viele Aufgaben einsetzbar. Andere, wie BERT, müssen speziell in Bezug auf bestimmte Aufgaben, wie z.B. die Erkennung von Kundenanfragen, trainiert werden.
Durch die richtige Balance zwischen der Anzahl der Parameter und der Menge der zur Verfügung stehenden Daten können diese Modelle beeindruckende Ergebnisse in einer Vielzahl von Anwendungen erzielen.
Overfitting
Auch beim grundlegenden Training von LLMs ein mögliches Problem und Grundlage dafür, dass eine so große Menge an Sprachdaten zum Training der Modelle benötigt wird.
Overfitting tritt auf, wenn ein Modell beim Training zu stark auf die Trainingsdaten angepasst wurde und es dann nicht mehr gut schafft, auf neue, noch nicht gesehene Daten zu verallgemeinern. Bei LLMs kann das beispielsweise auftreten, wenn das Modell sehr komplex ist (viele Parameter hat) und die Datenmenge, anhand derer es trainiert wird, im Verhältnis zu klein oder zu wenig divers ist. Dann lernt das Modell spezifische Muster in diesen Daten zu erkennen, statt allgemeine Muster zu verstehen.
Weshalb ist der große Hype erst mit ChatGPT gekommen?
ChatGPT hat deshalb so eine große Aufmerksamkeit bekommen, weil es wie bei keinem Modell zuvor gelungen ist, neben der guten Leistungsfähigkeit in der natürlichen Sprachgenerierung auch das Alignment des Modells zu erhöhen. Alignment bedeutet, dass dem Modell beigebracht wird, sich so zu verhalten, wie Menschen es erwarten würden – also Antworten zu geben, die hilfreich sind, möglichst wenig Biases enthalten, möglichst wahr sind (also wenig Halluzinationen) und als sicher wahrgenommen werden.
Biases bei LLMs sind ungewollte und potenziell problematische Tendenzen in den generierten Texten, die auf den während des Trainings aufgenommenen Daten und Sprachmustern beruhen können. Halluzinationen sind irreführende oder falsche Aussagen des Modells, die auf den ersten Blick nicht erkennbar sind, weil sie plausibel klingen.
Im grundlegenden Training eines Sprachmodells spielt Alignment keine Rolle. Vielmehr lernt das Modell, auf Grundlage einer großen Datenmenge aus dem Internet das wahrscheinlichste nächste Wort in einem bestimmten Zusammenhang vorherzusagen. Damit reproduziert es ungefilterte Inhalte, die hochgradig voreingenommen oder falsch sein können. Um diese
Herausforderungen in den Griff zu bekommen, braucht es spezielles Training. ChatGPT ist deshalb so gut, weil es auf Grundlage einer sehr großen Menge an menschlich annotierten Daten mittels Reinforcement Learning from Human Feedback (RLHF) trainiert wurde. Gleichzeitig ist das Modell besser in der Lage, größere Konversationskontexte zu verstehen und damit passende Antworten auch in längeren Dialogen zu geben. Es ist zudem öffentlich und für jeden verfügbar, kann weiterhin von Feedback lernen und hat sich aufgrund des Trainings keinen ähnlichen Faux-Pas geleistet wie Galactica von Facebook. Anstatt beim wissenschaftlichen Schreiben zu helfen, hat Galactica unter anderem wissenschaftliche Artikel und Referenzen erfunden und wurde bereits wenige Tage nach dem Release wieder eingestellt. Alleine, das OpenAI sich einige Wochen nach dem Scheitern von Galactica (Anfang November 2022) getraut hat, ChatGPT zu veröffentlichen (30.11.2022), zeigt das Vertrauen, dass das Unternehmen in die Leistung seines Modells hatte. Gleichzeitig sind Halluzinationen, wie die von Galactica, auch bei ChatGPT weiterhin ein Problem, das man beim Live-Einsatz des Modells adressieren muss.
Reinforcement Learning from Human Feedback (vereinfacht)
- Zunächst wird mit menschlichen Antworten trainiert. Es wird also eine Frage gestellt, ein Mensch beantwortet sie und das Modell erhält das Frage-Antwort Paar zum Training.
- Dann wird das Modell damit beauftragt, mehrere Antworten auf eine Frage zu geben. Die Antworten werden von Menschen hinsichtlich der Qualität geordnet.
- Die menschlichen Rankings werden verwendet, um ein Reinforced Model zu trainieren, das somit menschliche Präferenzen kennt.
- Dann wird der Prozess skaliert und das LLM gibt Antworten mit dem Ziel eine möglichst hohe Belohnung zu bekommen für die jeweilige Antwort. Die Belohnung wird auf Basis des zuvor auf menschliche Präferenzen trainierten Modells vergeben.
Somit wird die Verteilung des Ergebnisses in Richtung der Teile verschoben, in denen die menschlichen Präferenzen liegen. Es werden nun die "guten" Antworten aus menschlicher Sicht bevorzugt, wodurch Vielfalt verloren geht.
Mit dem Release von GPT4 hat OpenAI zu Beginn diesen Jahres direkt nachgelegt und ein noch besseres, größeres Modell zur Verfügung gestellt. Beide Modelle werden laufend optimiert – zuletzt Anfang November 2023 durch eine Vergrößerung des möglichen Inputs auf 128.000 Tokens (ca. 85.000 Wörter). In der KI und bei Large Language Models (LLMs) bezeichnet ein "Token" die kleinste Einheit der Verarbeitung, oft ein Wort oder Teil eines Wortes. Diese Tokens werden von den Modellen verwendet, um Sprache zu verstehen, Text zu generieren und komplexe sprachliche Muster zu erkennen. Zudem hat OpenAI die direkte Integration von Retrieval Augmented Generation (RAG) zur Verfügung gestellt. Es können somit Dateien hochgeladen und dem Modell direkt Fragen zu den Inhalten dieser Dateien gestellt werden.
Ist OpenAI die einzige Möglichkeit zum Einsatz leistungsfähiger generativer KI?
Während OpenAI im vergangenen Jahr die Speerspitze der generativen KI Entwicklung war und mit Microsoft einen Partner hat, der eine Nutzung auch in Europa datenschutzkonform ermöglicht, gibt es alternative Modelle, die über eine ähnlich hohe Qualität verfügen. ChatGPT hat nicht nur die Öffentlichkeit auf generative KI aufmerksam gemacht. Auch in der Wissenschaft hat es eine Fokussierung auf diese Technologie ausgelöst. Daraus entwickeln sich nahezu wöchentlich neue und bessere Modelle. Insbesondere der Open Source Bereich holt auf und treibt die Entwicklungen. Bestes Beispiel ist das vortrainierte Sprachmodell Llama2, welches von Facebook im Juli diesen Jahres zur Verfügung gestellt wurde und für kommerzielle Zwecke nutzbar ist. Auf Basis dieses Modells entwickeln sich laufend optimierte Varianten, auch für spezifische Verwendungen, wie im medizinischen Bereich. Ebenso hat OpenAI Konkurrenz in Deutschland durch Aleph Alpha (zumindest zukünftig, denn im November 2023 erhielt das Unternehmen eine Gesamtinvestition von über 500 Mio. US-Dollar) und in den USA durch Google oder Anthropic, in das Amazon über 4 Mrd. Dollar investiert hat.
Es gibt also zahlreiche Alternativen zu den bekannten OpenAI Modellen, die für spezielle Use Cases genauso gut sein können, wie die Modelle des aktuellen Marktführers.