Um weiterhin optimale, kundengerechte Lösungen zu bieten, braucht es neue Anwendungen, die auf LLMs basieren, da die natürliche Kommunikation in der Interaktion Mensch-Maschine immer selbstverständlicher wird. Gleichzeitig entstehen neue Herausforderungen in der Sicherheit und Leistungsfähigkeit der Anwendungen.
Als Anbieter innovativer Softwarelösungen wählt und optimiert VIER die leistungsstärksten Modelle für bestimmte Use Cases, um sie dann sicher und stabil in Live-Kundenumgebungen einzusetzen. Hierfür arbeitet VIER seit Anfang 2023 mit eigenen KI-Teams an
der Entwicklung eines Modellgartens, der die besten Large Language Models für den jeweiligen Use Case beinhaltet
einem Gateway, das den sicheren und datenschutzkonformen Einsatz verschiedener LLMs ermöglicht
einer Chatlösung, die eine Verbindung zwischen Wissensaufbereitung und generativen Sprachmodellen ermöglicht.
Zudem haben wir als Unternehmen die Leistungen der LLMs in unsere Produkte VIER Cognitive Voice Gateway, VIER Copilot und VIER Interaction Analytics integriert und für unsere Kund:innen im Juni 2023 zur Verfügung gestellt.
VIER Modellgarten
Der Modellgarten ist ein Ort, an dem VIER Informationen zu LLMs speichert und bereitstellt, die für bestimmte Anwendungsfälle getestet wurden. Er gibt einen Überblick über aktuelle Entwicklungen, die für den Live-Einsatz wichtig sind, und bietet zusätzlich Einblicke in die Qualität, Reaktionszeit, Hosting und Kosten der verschiedenen Modelle.
Warum der eigene VIER Model Garden?
Es gibt viele LLM-Benchmarks und die meisten neuen Modelle werden hinsichtlich dieser Benchmarks getestet. Die Ergebnisse dieser Benchmarks werden in LLM-Ranglisten zusammengefasst, wie z.B. dem Open LLM Leaderboard oder dem LMSYS Leaderboard, das auch kommerzielle Modelle und menschliche Bewertungen integriert.
Standard-Benchmarks der Sprachmodelle
MMLU: bildet während des Vortrainings erworbenes Wissen ab und umfasst 57 Themen aus den MINT-Fächern (Mathematik, Informatik, Naturwissenschaften, Technik), den Geisteswissenschaften, den Sozialwissenschaften und mehr.
HellaSwag: ist ein Test für das Allgemeinwissen zur Vervollständigung von Sätzen, der für Menschen einfach ist und früher für LLMs sehr herausfordernd war.
Commonsense QA: beinhaltet 12.247 Fragen zum Allgemeinwissen mit jeweils 5 Auswahlmöglichkeiten.
OpenBookQA: besteht aus 5.957 Multiple-Choice-Fragen auf elementarem Wissenschaftsniveau (4.957 Trainingsdaten, 500 Entwicklung, 500 Test).
ARC Benchmark: eine anspruchsvollere QA-Aufgabe, die common sense reasoning einschließt.
TriviaQA Benchmark: ist ein realistischer, textbasierter Frage-Antwort-Datensatz, der 950.000 Frage-Antwort-Paare aus 662.000 Dokumenten von Wikipedia und dem Web beinhaltet.
TruthfulQA: misst, wie stark ein Modell Unwahrheiten reproduziert, die im Internet häufig vorkommen.
Chatbot Arena Elo Rating: eine LLM-Battle-Plattform mit menschlichen Bewertungen. Über 70.000 Benutzer:innenstimmen werden kombiniert, um Elo-Wertungen zu berechnen.
Selbstverständlich verwendet VIER diese Informationen, um mit den neuesten Entwicklungen Schritt zu halten. Allerdings gibt es mehrere Gründe, warum diese Informationen bei weitem nicht ausreichen, um eine sichere Entscheidung zu treffen, welches Modell für welchen Use Case verwendet werden kann:
Keiner der oben genannten Benchmarks nutzt als Bewertungsgrundlage die deutsche Sprache. Der VIER Model Garden liefert Informationen zur Qualität der Modelle in deutscher Sprache.
Die Benchmarks sind nicht anwendungsspezifisch. Selbst wenn ein Modell gut darin ist, Wissensfragen zu beantworten (MMLU) oder Antworten zu geben, die dem gesunden Menschenverstand entsprechen (z. B. HellaSwag, CommensenseQA) und nicht dazu neigen, oft im Internet verbreitete Unwahrheiten zu wiederholen (z. B. TruthfulQA), bedeutet das nicht automatisch, dass deutsche Texte korrekt zusammengefasst werden. Selbst spezifische Zusammenfassungs-Benchmarks sind meistens mit englischen Zeitungsdatensätze erstellt, die nicht mit den relevanten Anwendungsdaten vergleichbar sind. Der VIER Model Garden liefert Informationen zur Qualität der Modelle in spezifischen Anwendungsfällen mit kundenrelevanten Daten (z.B. Transkripten aus Telefonaten).
Die meisten Benchmarks behandeln die Qualität, was zweifellos das wichtigste Kriterium ist. Für verschiedene Anwendungsfälle gibt es jedoch andere wichtige Aspekte wie Reaktionszeit und Kosten. Der VIER Model Garden gibt einen Überblick über die wichtigsten Kriterien für Anwender:innen und unterstützt damit die Entscheidung für ein Modell in Bezug auf Qualität, Reaktionszeit, Hosting (Datensicherheit) und Kosten.
Das Huggingface Open LLM Leaderboard enthält nur Open-Source-Modelle. Der VIER Model Garden vergleicht die Qualität, Reaktionszeit und Kosten von Open-Source-Modellen mit denen kommerzieller Modelle.
Das Huggingface Leaderboard sowie die meisten anderen Ranglisten richten sich an Expert:innen und Entwickler:innen. Sie sind meistens schwer verständlich. Der VIER Model Garden wendet sich an potenzielle Benutzer und stellt Informationen auf eine strukturierte und verständliche Weise bereit.
Im Zusammenhang mit den für Kunden wichtigen Anwendungsfällen besteht der Model Garden aus mehreren Abschnitten. Im VIER Model Garden wird gezeigt, dass ein Modell in einem Anwendungsfall gut sein kann, während es in anderen Anwendungsfällen nicht performant ist.
VIER testet also relevante Modelle im Detail, um Unternehmen die besten Optionen für den jeweiligen Use Case anzubieten. Neben der Auswahl des richtigen Modells für den jeweiligen Anwendungsfall sind einige weitere Aspekte für den sicheren Einsatz von LLMs auf Enterprise Level zu beachten.
Das VIER AI Gateway und der neue Weg, Conversational AI in Unternehmen einzusetzen
Für den sicheren Einsatz von LLMs braucht es Expertise im Prompt Engineering und im systematisierten Testen verschiedener Promptformate gegeneinander, was es erst ermöglicht, leistungsfähige Anwendungen zu erschaffen. VIER hat weitreichende Erfahrungen damit, Leitplanken (“guardrails”) aufzustellen, um die Modelle in der Anwendung auf Kurs zu halten. Dabei geht es insbesondere darum, zu kontrollieren, dass Modelle sich beispielsweise bei Chatanwendungen an die Anweisungen im Prompt halten und nicht halluzinieren oder Informationen zu Themen geben, die in dem entsprechenden Use Case nicht vorgesehen sind. Dafür verfolgt VIER einen mehrstufigen Ansatz, der sowohl die Feinabstimmung des Prompts beinhaltet, als auch die Implementierung von Leitplanken über unser Flow Management, Blacklists und Gesprächsleitfäden für die Modelle, der in VIERs Projekt NEO-CAI (“New Enterprise Optimized Conversational Artificial Intelligence) vereint wird.
Um Know-How gezielt verfügbar zu machen, bietet NEO-CAI Retrieval Augmented Generation (RAG) in einer kundenspezifischen Variante. Damit kombiniert VIER die Möglichkeiten des LLMs, kohärente und gut wirkende Antworten zu geben, mit abfragebasierten Ansätzen, welche die richtigen Informationen aus bestehenden Dokumenten suchen. So wird es möglich, beispielsweise FAQs oder Fragen zu Produktbeschreibungen komplett automatisiert abzuarbeiten. Damit diese Anwendungen optimal funktionieren, ist es unter anderem wichtig, die Inhaltsdokumente in sinnvolle Teile zu schneiden (Chunking), einen guten Mechanismus für das Übersetzen dieser Dokumente in Vektoren zu finden (Embedding) und eine dazu passende Anwendung, die die Daten wieder zu der spezifischen Frage aus der Vektordatenbank holt und in der richtigen Form ins LLM zur Antwortgenerierung gibt.
Der Modellzugang erfolgt über unser AI Gateway, das neben der Authentifizierung, dem Billing und Monitoring sowie der Verwaltung der verschiedenen Modellzugänge auch detaillierte Datenschutzfeatures bietet. Dazu gehört eine optionale Anonymisierung oder Pseudonymisierung der Anfragen, die dafür sorgt, das ein Modell nie die kundenspezifischen Daten wie Namen, Kundennummern oder Adressen bekommt und die Antwort dennoch die gleiche Natürlichkeit aufweist wie in einer direkten Kommunikation mit dem ausgewählten Modell. Die Anonymisierung stellt VIER über eine interne Technologie von VIER Cognesys sicher, die gewährleistet, dass Kundendaten die VIER Systeme nicht verlassen.
VIER sorgt also dafür, dass die besten verfügbaren Modelle sicher im jeweiligen Use Case unserer Kund:innen eingesetzt werden können. Dafür bietet VIER individualisierte Chatlösungen ebenso an, wie die Integration von LLMs in unsere Produkte Cognitive Voice Gateway, Copilot und Interaction Analytics.
LLMs sicher und datenschutzkonform nutzen
Die Entwicklung von LLMs (Large Language Models) schreitet schnell voran. Wir stehen erst am Anfang einer Entwicklung, die verändern wird, wie wir Informationen nutzen und wie wir kommunizieren. VIER ist bereit, diese Herausforderung zusammen mit unseren Kunden zu meistern und die Möglichkeiten von LLMs nutzen, um die Customer Experience und gleichzeitig die Employee Experience zu verbessern.
VIER setzt dafür auf einen Mix aus verschiedenen Technologien wie dem Modellgarten, dem AI Gateway und der NEO CAI-Technologie, um Unternehmen zu helfen, sich in der komplexen Landschaft der LLMs zurechtzufinden. Diese Tools ermöglichen es Unternehmen, die besten Modelle für ihre Bedürfnisse zu finden und gleichzeitig darauf zu achten, dass ihre Anwendungen sicher und datenschutzkonform sind.
Der Weg hin zur serienmäßigen Nutzung von LLMs in Kundenanwendungen hat grade erst begonnen. Wenn Sie mehr über spezifische Anwendungsfälle, Integrationen oder Tests erfahren möchten, kontaktieren Sie uns gerne.