AI Engineering

Was ist RAG (Retrieval-Augmented Generation)?

Kurzdefinition

RAG (Retrieval-Augmented Generation) ist eine Technik, die ein Sprachmodell mit einer externen Wissensquelle verbindet: Vor der Antwort werden relevante Informationen aus einer Datenbank abgerufen und dem Modell als Kontext mitgegeben. RAG macht KI-Antworten faktentreuer, aktueller und auf eigene Daten beziehbar — und reduziert Halluzinationen.

RAG steht für Retrieval-Augmented Generation, auf Deutsch etwa abrufgestützte Erzeugung. Es bezeichnet eine Technik, die ein Sprachmodell mit einer externen Wissensquelle verbindet. Statt sich allein auf das im Modell gespeicherte, beim Training erlernte Wissen zu verlassen, ruft ein RAG-System vor der Erzeugung einer Antwort relevante Informationen aus einer Datenquelle ab und gibt sie dem Modell als Kontext mit. Auf dieser Grundlage erzeugt das Modell seine Antwort. RAG ist eine der wichtigsten Techniken, um KI-Funktionen faktentreu und auf eigene Daten beziehbar zu machen.

Das Problem, das RAG löst

Ein Sprachmodell allein hat zwei wesentliche Schwächen: Sein Wissen ist auf den Trainingsstand begrenzt und kennt weder spätere Ereignisse noch die spezifischen Daten eines einzelnen Unternehmens, und es neigt zu Halluzinationen, also zu plausibel klingenden, aber falschen Aussagen. RAG adressiert beide Probleme. Indem es dem Modell vor der Antwort die relevanten, aktuellen und unternehmenseigenen Informationen als Kontext mitgibt, kann das Modell auf dieser konkreten Grundlage antworten statt aus seinem allgemeinen, möglicherweise veralteten Gedächtnis. Das macht die Antworten aktueller, faktentreuer und auf die eigenen Daten bezogen.

Wie RAG funktioniert

Ein RAG-System arbeitet in mehreren Schritten. Zunächst werden die eigenen Dokumente oder Daten in kleine Abschnitte zerlegt und in eine durchsuchbare Form gebracht, oft mithilfe sogenannter Embeddings, die den Bedeutungsgehalt eines Textes als Zahlenvektor darstellen. Diese werden in einer Vektordatenbank gespeichert. Stellt ein Nutzer eine Frage, wird auch sie in einen solchen Vektor umgewandelt, und das System sucht die inhaltlich ähnlichsten Abschnitte aus der Datenbank heraus. Diese relevanten Abschnitte werden dem Sprachmodell zusammen mit der Frage als Kontext übergeben, woraufhin das Modell eine Antwort erzeugt, die auf diesen konkreten Informationen beruht.

Embeddings und Vektordatenbanken

Das technische Herzstück von RAG sind Embeddings und Vektordatenbanken. Ein Embedding ist eine Darstellung von Text als Vektor, bei der inhaltlich ähnliche Texte ähnliche Vektoren erhalten. Das erlaubt eine Suche nach Bedeutung statt nach exakten Stichwörtern: Eine Frage findet die inhaltlich passenden Abschnitte, auch wenn sie andere Worte verwenden. Eine Vektordatenbank speichert diese Embeddings und ermöglicht die schnelle Suche nach den ähnlichsten Vektoren. Lösungen wie die Erweiterung pgvector für PostgreSQL erlauben es, diese Funktion in eine bestehende Datenbank zu integrieren, was die Architektur vereinfacht und gut zu einem Stack auf Basis von Supabase passt.

RAG versus Fine-Tuning

Eine häufige Frage ist, ob man eigenes Wissen besser über RAG oder über das Nachtrainieren eines Modells, das sogenannte Fine-Tuning, einbringt. Beide Ansätze haben ihren Platz, lösen aber unterschiedliche Probleme. Fine-Tuning verändert das Verhalten und den Stil eines Modells, ist aber aufwendig und für sich ändernde Faktenbestände ungeeignet, weil jede Änderung ein erneutes Training erfordern würde. RAG dagegen eignet sich hervorragend, um aktuelles und sich änderndes Wissen einzubringen, weil man dafür nur die Datenquelle aktualisieren muss, ohne das Modell anzufassen. Für die meisten Anwendungsfälle, bei denen es um den Zugriff auf eigene, aktuelle Daten geht, ist RAG der praktischere und kostengünstigere Weg.

Vorteile von RAG

RAG bietet mehrere Vorteile. Es macht Antworten faktentreuer, weil sie auf konkreten, abgerufenen Informationen beruhen statt auf dem allgemeinen Modellwissen. Es hält das Wissen aktuell, weil sich die Datenquelle jederzeit aktualisieren lässt. Es ermöglicht den Bezug auf eigene, unternehmensspezifische Daten, die kein allgemeines Modell kennen kann. Und es schafft Nachvollziehbarkeit, weil sich oft angeben lässt, aus welchen Quellen eine Antwort stammt. Diese Eigenschaften machen RAG besonders wertvoll für Anwendungen, bei denen Korrektheit und der Bezug auf eigene Daten wichtig sind — etwa für einen Assistenten, der Fragen zu den eigenen Dokumenten oder Daten eines Nutzers beantwortet.

RAG datenschutzkonform umsetzen

Wie bei jeder KI-Integration sind auch bei RAG die Datenschutzaspekte zu beachten, besonders im DACH-Raum. Die eigenen Daten, aus denen abgerufen wird, können sensibel sein, und sowohl ihre Speicherung in einer Vektordatenbank als auch ihre Übergabe an ein Sprachmodell müssen datenschutzkonform erfolgen. Eine durchdachte RAG-Architektur achtet darauf, wo die Daten gespeichert werden, welcher Modellanbieter eingesetzt wird und ob personenbezogene Daten unnötig weitergegeben werden. Mit EU-Hosting der Vektordatenbank und einer sorgfältigen Wahl des Modellanbieters lässt sich RAG datenschutzkonform umsetzen — eine Architektur, die Innopulse in eigenen Produkten und Kundenprojekten anwendet.

Fazit

Die Qualität des Retrievals

Der entscheidende Faktor für die Qualität eines RAG-Systems ist das Retrieval — also wie gut die relevanten Informationen aus der Datenquelle abgerufen werden. Werden die falschen oder unvollständige Abschnitte abgerufen, kann auch das beste Sprachmodell keine gute Antwort erzeugen, weil ihm der nötige Kontext fehlt. Die Qualität des Retrievals hängt von mehreren Faktoren ab: von der sinnvollen Zerlegung der Dokumente in Abschnitte, von der Qualität der Embeddings, die den Bedeutungsgehalt erfassen, und von der Suchstrategie. Eine sorgfältige Gestaltung dieser Bausteine ist oft wichtiger als die Wahl des Sprachmodells selbst. Wer ein RAG-System aufbaut, sollte daher dem Retrieval besondere Aufmerksamkeit widmen, denn es entscheidet über die Güte der Antworten.

RAG und Nachvollziehbarkeit

Ein wertvoller Vorteil von RAG ist die Möglichkeit der Nachvollziehbarkeit. Da die Antwort auf konkret abgerufenen Informationen beruht, lässt sich oft angeben, aus welchen Quellen sie stammt. Das System kann die zugrunde liegenden Abschnitte als Beleg ausweisen, sodass der Nutzer die Antwort überprüfen und vertiefen kann. Diese Transparenz ist besonders wertvoll in Anwendungen, in denen Vertrauen und Korrektheit zählen — etwa bei einem Assistenten, der Fragen zu rechtlichen oder fachlichen Dokumenten beantwortet. Sie unterscheidet RAG von einem reinen Sprachmodell, dessen Antworten ohne erkennbare Quelle entstehen. Die Nachvollziehbarkeit macht RAG-basierte Systeme glaubwürdiger und ist ein weiterer Grund, diese Technik für faktenkritische Anwendungen zu wählen.

Fazit zu RAG

RAG verbindet ein Sprachmodell mit einer externen Wissensquelle und löst damit die Kernschwächen reiner Modelle: das begrenzte, veraltete Wissen und die Neigung zu Halluzinationen. Über Embeddings und eine Vektordatenbank ermöglicht es eine Suche nach Bedeutung und den Bezug auf eigene, aktuelle Daten, wobei die Qualität des Retrievals und die Nachvollziehbarkeit über den Wert des Systems entscheiden. Für die meisten Anwendungsfälle ist RAG dem aufwendigen Fine-Tuning überlegen. Datenschutzkonform mit EU-Hosting umgesetzt, ist RAG eine der wichtigsten Techniken für faktentreue, auf eigene Daten bezogene KI-Funktionen — eine Architektur, die Innopulse in eigenen Produkten anwendet.

RAG und die Aktualität des Wissens

Ein praktischer Vorteil von RAG, der im Alltag besonders zählt, ist die einfache Aktualisierung des Wissens. Da die Antworten auf einer externen Datenquelle beruhen, genügt es, diese Quelle zu aktualisieren, damit das System auf dem neuesten Stand antwortet — ohne dass das Sprachmodell selbst angefasst werden müsste. Neue Dokumente, geänderte Informationen oder zusätzliche Daten fliessen so unmittelbar in die Antworten ein. Diese Trennung zwischen dem Modell, das die Sprache beherrscht, und der Wissensquelle, die den Inhalt liefert, macht RAG-Systeme besonders pflegeleicht und aktuell. Für Anwendungen, deren Wissensbestand sich häufig ändert, ist dies ein entscheidender Vorteil gegenüber einem Modell, dessen Wissen zum Trainingszeitpunkt eingefroren ist.

RAG verbindet ein Sprachmodell mit einer externen Wissensquelle, indem es vor der Antwort relevante Informationen abruft und dem Modell als Kontext mitgibt. Damit löst es zwei Kernschwächen von Sprachmodellen: das begrenzte, veraltete Wissen und die Neigung zu Halluzinationen. Über Embeddings und eine Vektordatenbank ermöglicht RAG eine Suche nach Bedeutung und den Bezug auf eigene, aktuelle Daten. Für die meisten Anwendungsfälle ist RAG dem aufwendigen Fine-Tuning überlegen und damit eine der wichtigsten Techniken, um faktentreue, auf eigene Daten bezogene KI-Funktionen datenschutzkonform aufzubauen.

AI Engineering ist unser Fachgebiet

Innopulse erklärt nicht nur Begriffe — wir setzen sie für DACH-Unternehmen in die Praxis um.

Services ansehen Zurück zum Glossar