KI-Sprachmodelle verfügen über breites Wissen, doch dieses Wissen ist statisch. Was zum Zeitpunkt des Trainings nicht in den Daten stand, existiert für das Modell nicht. Und wenn es keine Antwort kennt, erfindet es eine. Dieses Verhalten wird als Halluzination bezeichnet. RAG und Embeddings setzen genau hier an.

Warum KI-Systeme halluzinieren

Große Sprachmodelle wie ChatGPT generieren Antworten aus Wahrscheinlichkeiten über Wortfolgen — nicht aus gesichertem Faktenwissen. Ihr Trainings-Snapshot ist eingefroren: aktuelle Ereignisse, unternehmensspezifische Dokumente oder spezialisiertes Fachwissen fehlen. Wenn das Modell trotzdem antwortet, klingt die Antwort plausibel, kann aber frei erfunden sein.

Das Problem lässt sich nicht durch häufigeres Nachtrainieren lösen. Jedes neue Training ist aufwendig, teuer und verändert das Modellverhalten unvorhersehbar. Was Unternehmen brauchen, ist eine Methode, aktuelle und spezifische Informationen zur Laufzeit bereitzustellen — ohne das Modell selbst anzufassen.

Embeddings: Bedeutung als Zahl

Embeddings sind mathematische Vektoren, die die semantische Bedeutung eines Textes erfassen. Ähnliche Inhalte erhalten ähnliche Zahlenwerte — und liegen im mathematischen Raum nah beieinander. „Batterielebensdauer" und „Akkulaufzeit" meinen dasselbe, obwohl kein Buchstabe übereinstimmt. Eine klassische Stichwortsuche würde beide nicht verknüpfen. Eine Embedding-basierte Suche schon.

Das ermöglicht semantische Suche: Statt exakter Übereinstimmungen findet das System Texte, die inhaltlich passen — unabhängig von der konkreten Formulierung. Für Unternehmen bedeutet das: Dokumente, FAQs, Handbücher und interne Wissensdatenbanken lassen sich durchsuchbar machen, ohne jede mögliche Formulierung einer Frage vorherzusehen.

RAG: Aktuelles Wissen direkt in die Antwort

Retrieval-Augmented Generation — kurz RAG — kombiniert die Stärke großer Sprachmodelle mit einer durchsuchbaren Wissensdatenbank. Der Ablauf ist dreistufig: Das System wandelt die Nutzeranfrage in einen Embedding-Vektor um und sucht in der Vektordatenbank nach den ähnlichsten Einträgen (Retrieval). Es fügt die relevantesten Dokumente der Anfrage hinzu (Augmentation). Dann generiert das Modell eine Antwort — gestützt auf echte, aktuelle Informationen (Generation).

Das Ergebnis: Die Wahrscheinlichkeit von Halluzinationen sinkt deutlich, weil das Modell die Antwort im mitgelieferten Kontext vorfindet. Die Wissensdatenbank lässt sich täglich aktualisieren, ohne das Sprachmodell zu verändern. Unternehmen können ihr internes Wissen — Produktdokumentationen, Projektberichte, Support-Historien — direkt nutzbar machen.

Wo es in der Praxis hakt

RAG ist kein Selbstläufer. Die Qualität der Antworten hängt direkt von der Qualität der Dokumente ab: veraltete, fehlerhafte oder schlecht strukturierte Quellen produzieren schlechte Ergebnisse. Auch die Chunk-Größe — also wie Dokumente vor dem Indexieren aufgeteilt werden — hat großen Einfluss darauf, ob relevante Informationen überhaupt gefunden werden.

Hinzu kommen technische Komplexität (Vektordatenbanken, API-Anbindungen, Orchestrierungslogik), laufende Wartung der Wissensdatenbank und API-Kosten, die bei hohem Volumen erheblich werden können. Wer RAG einführt, braucht einen klaren Prozess für Dokumentenpflege — sonst veraltet die Basis, und die Halluzinationsrate steigt wieder.

RAG und Embeddings sind heute produktiv einsetzbar. Für Unternehmen, die ihr internes Wissen für KI-Systeme nutzbar machen wollen, lohnt sich ein genauer Blick auf die eigene Datengrundlage: Was wissen wir, wo liegt es, und wie aktuell ist es? Diese Fragen entscheiden mehr über den Erfolg als die Wahl der Technologie.