RAG im Unternehmen: Warum die meisten Pilotprojekte scheitern – und wie es richtig geht

19. Mai 2026

8 Min. Lesedauer

Leon Amadeus Ivkovic

IT & Informatik

Retrieval-Augmented Generation im Unternehmen – DSGVO-konform und produktiv

Laut Bitkom KI-Studie 2026 nutzen inzwischen 41 % der deutschen Unternehmen Künstliche Intelligenz – mehr als doppelt so viele wie 2024.

Gleichzeitig berichtet ein Drittel der Befragten, dass KI deutlich teurer wird als erwartet, und 19 % haben bereits Stellen wegen KI-Automatisierung abgebaut.

In dieser Marktlage hat sich eine Architektur als Favorit für unternehmenseigene KI durchgesetzt: RAG – Retrieval-Augmented Generation. Sie kombiniert ein Sprachmodell mit den Daten Ihres Unternehmens, ohne diese in die Cloud zu schicken, und ist damit DSGVO-konform on-premise oder in europäischen Rechenzentren betreibbar.

Klingt nach der Lösung. In der Realität sehen wir bei SMI Digital aber eine wachsende Zahl gescheiterter RAG-Pilotprojekte. Warum? Weil der Aufwand für ein produktiv nutzbares RAG-System fast immer unterschätzt wird. In diesem Beitrag erklären wir, wie der Weg vom Hype zur echten Wertschöpfung aussieht.

Was ist RAG?

Stellen Sie sich ein klassisches Sprachmodell wie eine sehr belesene Person vor: Sie hat im Studium tausende Bücher gelesen und kann eloquent über fast alles sprechen. Aber sie weiß nichts über Ihr Unternehmen, Ihre Verträge oder die SOP, die Sie letzte Woche geschrieben haben.

RAG funktioniert wie eine Bibliothek, in die Sie diese Person setzen:

Sie stellen eine Frage („Welche Klauseln gelten in Lieferverträgen mit Kunde X?").
Ein Retrieval-System (die Bibliothekarin) durchsucht in Sekunden alle relevanten Dokumente und legt der Person genau die Passagen auf den Tisch, die zur Frage passen.
Die belesene Person liest diese Passagen und formuliert eine Antwort – auf Basis Ihrer echten Dokumente, nicht auf Basis ihres Vorwissens.

Das ist der entscheidende Unterschied zu Fine-Tuning oder eigenen Modellen: Sie trainieren das Modell nicht neu, Sie geben ihm nur jedes Mal die richtigen Kontextausschnitte mit. Das macht RAG schneller einzuführen, billiger zu warten undwichtig für die DSGVO, jederzeit datenschutzkonform anpassbar.

Warum RAG für deutsche Unternehmen DSGVO-Vorteile hat

Der wichtigste Vorteil von RAG gegenüber generischen Cloud-LLMs ist die Datenkontrolle. In einem korrekt aufgesetzten RAG-System bleiben:

Ihre Dokumente in Ihrer Datenbank (on-premise oder EU-Hosting).
Ihre Embedding-Vektoren in Ihrem Vektorstore.
Ihre Anfragen in Ihren Logs – nicht in einem US-Cloud-Provider.

Lediglich der Prompt mit eingebettetem Kontext wird an ein Sprachmodell geschickt – und auch das können Sie über offene Modelle (Llama, Mistral, Qwen) komplett selbst hosten, wenn die Sensitivität es verlangt.

Das ist auch der Grund, warum laut EuroCloud-Umfrage 2026 mittlerweile 45 % der Befragten „digitale Souveränität" als wichtigsten Cloud-Trend sehen – noch vor KI selbst. RAG ist die Antwort auf beides gleichzeitig.

Wo RAG-Projekte teuer werden (3 Kostenfallen)

Wenn Sie schon einmal mit Anbietern gesprochen haben, kennen Sie die Verkaufsfolie: „RAG-System in 4 Wochen, ab 25.000 Euro." In der Realität wachsen die Kosten meistens nicht beim Modell, sondern an drei anderen Stellen:

1. Datenvorbereitung: 50–70 % des Aufwands

PDFs mit gescannten Tabellen, Word-Dokumente mit zehn Versionen, E-Mail-Anhänge ohne Metadaten – die Realität in Unternehmensarchiven ist chaotisch. Bevor ein RAG-System sinnvoll antworten kann, müssen Dokumente:

Bereinigt und normalisiert werden (OCR, Layout-Erkennung).
In sinnvolle „Chunks" zerlegt werden (Absatz, Kapitel, Tabelle?).
Mit Metadaten angereichert werden (Quelle, Datum, Rechtsstand, Vertraulichkeit).
Inkrementell aktualisiert werden, wenn neue Dokumente dazukommen.

Wir haben Projekte gesehen, in denen die Datenpipeline mehr Aufwand verschlungen hat als das eigentliche KI-System. Wer das nicht einplant, baut einen Demo-Assistenten, der bei der ersten echten Frage versagt.

2. Integration in bestehende Prozesse

Ein RAG-Assistent in einer separaten Web-App ist nett – aber er entfaltet seinen Wert erst, wenn er in den Prozess eingebettet ist:

Direkt im ERP (z. B. ERPNext, SAP, Odoo): „Schlage mir eine Antwort auf diese Kundenanfrage vor."
Im Ticket-System: „Welche bekannten Probleme passen zu diesem Fehlerbild?"
In Microsoft Teams oder Slack: „Was sagt unsere Richtlinie zu X?"

Diese Integration ist meist nicht trivial – und sie ist der eigentliche Hebel für Wertschöpfung. Ohne sie bleibt RAG ein „cooler Chatbot" ohne messbaren ROI.

3. Pflege, Evaluation und Halluzinations-Kontrolle

Nach dem Go-live beginnt die eigentliche Arbeit: Wie gut antwortet das System? Wo halluziniert es? Welche Quellen werden zu selten / zu oft zitiert? Wir empfehlen:

Strukturierte Evaluation mit goldenen Test-Fragen.
Quellenangaben in jeder Antwort (kein „Black Box"-Output).
Monatliche Reviews der häufigsten Anfragen, idealerweise mit Fach-Stakeholdern.

Diese Pflege ist der unsichtbare Block, der oft im Angebot fehlt – und der den Unterschied zwischen produktivem System und „Marketing-Demo" macht.

Vom Proof of Concept zum produktiven System

Der häufigste Fehler in RAG-Projekten: Ein POC wird auf 20 Dokumenten gebaut, alle freuen sich, und dann soll daraus „mal eben" das produktive System werden. Spoiler: Das funktioniert nicht.

Unser Vorgehen bei SMI Digital sieht stattdessen so aus:

Use-Case-Workshop (1 Woche): Welche Frage soll das System beantworten? Wer stellt sie? In welchem Kontext? Was passiert mit der Antwort?
Datenpipeline-Prototyp (3–4 Wochen): Realistische Datenquelle, sauberer ETL-Prozess, erstes Embedding-Modell.
POC mit klaren Erfolgskriterien (2–3 Wochen): Vorab definierte Test-Fragen, gemessene Trefferquote, Erfolg/Misserfolg ist objektiv.
Produktiver Roll-out (6–10 Wochen): Integration in ERP/Tools, Zugriffsrechte, Audit-Logs, AI-Act-Konformität (Stichwort Wasserzeichen).
Verstetigung: Monitoring, Reviews, Erweiterung um weitere Quellen oder Use Cases.

Wer diesen Pfad geht, hat nach drei bis vier Monaten ein System, das tatsächlich verwendet wird – und nicht nach drei Wochen auf einer internen Demo-Seite verstaubt.

Was unterscheidet ein Demo-RAG von einem nutzbaren System?

Nach drei Jahren RAG-Projekten haben wir bei SMI Digital eine kleine Checkliste, die einen wirklich nutzbaren Assistenten ausmacht:

Jede Antwort enthält Quellenangaben mit klickbaren Links.
Bei niedriger Konfidenz sagt das System „weiß ich nicht" statt zu halluzinieren.
Die Wissensbasis wird automatisiert aktualisiert, nicht in seltenen manuellen Aufwänden.
Rollen- und Rechtemodell: Nicht jeder sieht jede Antwort – Vertraulichkeitsstufen werden respektiert.
Logs sind audit-fähig – wichtig für DSGVO, NIS2 und AI Act.

Die Antworten werden in der Arbeitsumgebung der Nutzerinnen ausgespielt, nicht in einem isolierten Tool. Wenn auch nur zwei dieser Punkte fehlen, ist das Projekt kein produktives System, sondern ein POC. Und POCs zahlen sich nicht aus.

Fallbeispiel: RAG-Assistent in einer ERPNext-Umgebung

Ein konkretes Beispiel aus unserer Praxis: Ein mittelständischer Maschinenbauer mit rund 250 Mitarbeitenden wollte seinen Vertrieb entlasten. Standardanfragen zu technischen Spezifikationen, Lieferzeiten und Kompatibilitäten banden zu viel Zeit.

Wir haben einen RAG-Assistenten gebaut, der:

Auf Produktdaten, Datenblätter und vergangene Angebote aus dem ERPNext zugreift.
Direkt im ERP eine Antwort-Vorschau generiert, die der Vertrieb übernehmen, anpassen oder verwerfen kann.
Bei rechtlich heiklen Fragen (Garantie, Haftung) explizit auf einen Menschen verweist statt selbst zu antworten.
Vollständig on-premise läuft – die Trainingsdaten verlassen das Unternehmen nicht.

Das Ergebnis nach sechs Monaten: 42 % weniger Bearbeitungszeit pro Standardanfrage, gleichzeitig höhere Zufriedenheit beim Vertrieb, weil der Assistent als Hilfe statt als Bedrohung wahrgenommen wird.

Häufige Fragen zu RAG im Unternehmen

Was kostet ein produktives RAG-System wirklich?

Realistisch im Mittelstand: 60.000 bis 200.000 Euro für das erste Jahr inklusive Datenpipeline, Integration und Roll-out. Danach laufende Kosten von 1.500–5.000 Euro pro Monat für Hosting, Pflege und Modell-Inferenz.

Brauche ich GPU-Server im eigenen Rechenzentrum?

Nicht zwangsläufig. Es gibt EU-gehostete LLM-Plattformen, die DSGVO-konform sind. Für maximal sensible Daten empfehlen wir on-premise mit dedizierten GPUs – das ist aber meist nicht der Standardfall.

Wie verhindert RAG, dass die KI halluziniert?

Indem sie nur auf Basis abgerufener Quellen antwortet und bei niedriger Konfidenz keine Antwort gibt. Das ist allerdings kein Schalter, den man umlegt – sondern ein Designprinzip, das durch alle Komponenten gezogen werden muss.

Ist RAG mit dem EU AI Act 2026 konform?

RAG-Systeme fallen in der Regel unter die Transparenzpflichten ab August 2026 (Wasserzeichen, Kennzeichnung). Mit korrekter Architektur und Audit-Logs ist Konformität gut erreichbar – aber sie ist kein Selbstläufer.

Wie lange dauert die Einführung?

Vom Workshop bis zum produktiven System realistisch drei bis fünf Monate. Wer in vier Wochen einen funktionierenden Demo-Chatbot will: machbar, aber nicht produktiv.

So unterstützt SMI Digital

Bei SMI Digital bauen wir maßgeschneiderte RAG- und Custom-LLM-Lösungen für mittelständische Unternehmen – immer in Kombination mit Prozessautomatisierung und (wo sinnvoll) integriert in ERPNext.

Unser Anspruch: Kein Demo-Hype, sondern Systeme, die ein Jahr nach Go-live noch genutzt werden.

Wenn Sie überlegen, wie ein RAG-Assistent in Ihrem Unternehmen aussehen könnte, machen wir Ihnen ein kostenfreies Use-Case-Sparring in 60 Minuten. Mit ehrlicher Einschätzung, wo es sich lohnt und wo es sich vielleicht (noch) nicht lohnt.