Zwei Jahre lang war die wichtigste Frage in deutschen Vorständen „Wann setzen wir endlich KI ein?". 2026 hat sich die Frage verschoben. Die Bitkom-KI-Studie 2026 (n=604 Unternehmen ab 20 Beschäftigten, telefonisch befragt in KW 2–6/2026) misst 41 Prozent aktiver KI-Nutzer – eine Verdopplung gegenüber 17 Prozent im Vorjahr. Weitere 48 Prozent planen oder diskutieren den Einsatz. Aber nur 21 Prozent haben eine formale KI-Strategie. Und nur 32 Prozent schöpfen ihr vorhandenes Datenpotenzial bereits aus – 5 Prozent vollständig, 48 Prozent kaum, 13 Prozent gar nicht.
Die McKinsey-Studie „The State of AI" (November 2025, n=1.993 Antworten aus 105 Ländern) bestätigt das Bild auf der Wirkungsseite: Nur rund 6 Prozent der Organisationen qualifizieren sich als „AI High Performer" mit nachweisbarem EBIT-Effekt von mehr als 5 Prozent. Die Lücke zwischen den 41 Prozent KI-Nutzern und den 6 Prozent, die wirklich Geld damit verdienen, ist primär keine Modell-Lücke. Sie ist eine Daten-Lücke.
Gartner prognostiziert in einer Studie auf Basis von 1.203 Data-Management-Leadern, dass bis Ende 2026 rund 60 Prozent der KI-Projekte abgebrochen werden, die nicht auf AI-Ready-Data aufbauen. 63 Prozent der Organisationen geben an, keine oder unsichere Datenmanagement-Praktiken für KI zu haben – nur 37 Prozent sind sich sicher, dass ihre Daten für KI tauglich sind. Die Informatica CDO Insights 2025 – eine Befragung von 600 Chief Data Officers weltweit – zeigt die operative Konsequenz: 67 Prozent konnten weniger als die Hälfte ihrer GenAI-Pilotprojekte in Produktion bringen. Datenqualität, Vollständigkeit und Bereitschaft sind für 43 Prozent das grösste Hindernis.
Dieser Leitfaden zeigt, was AI-Ready Data 2026 wirklich bedeutet, warum es sich klar von klassischer Datenqualität unterscheidet, welche fünf Architektur-Lager im deutschen Mittelstand sinnvoll sind, was Artikel 10 der EU-KI-Verordnung ab dem 2. August 2026 konkret verlangt – und wie deutsche Unternehmen in 90 Tagen vom Datensilo zur ersten produktiven KI-Datenbasis kommen.
Die wichtigsten Fakten auf einen Blick
Adoption & Daten-Lücke. Bitkom 2026 (n=604): 41 % deutsche Unternehmen ab 20 MA nutzen KI aktiv (+24 PP YoY), nur 21 % haben eine formale KI-Strategie, nur 32 % nutzen ihr Datenpotenzial.
Mess-Lücke. Gartner: bis Ende 2026 werden 60 % der KI-Projekte abgebrochen, die ohne AI-Ready Data starten. Nur 37 % der Unternehmen sind sich sicher, dass ihre Daten für KI tauglich sind.
ROI-Lücke. McKinsey State of AI 2025: nur ~6 % AI High Performer mit > 5 % EBIT-Effekt. Informatica CDO Insights 2025: 67 % der CDOs bekommen weniger als die Hälfte der GenAI-Piloten in Produktion.
Regulatorischer Treiber. Ab dem 2. August 2026 verlangt Artikel 10 der EU-KI-Verordnung für neue Hochrisiko-KI-Systeme dokumentierte Daten-Governance: Datenherkunft, Repräsentativität, Bias-Prüfung, Lineage – über den gesamten Lebenszyklus. Ohne saubere Datenstrategie ist Konformität nicht prüfbar.
Architekturwechsel. DACH-CIO-Budgets verlagern sich 2026 von Prompt-Engineering-Workshops in Master-Data-Management, Datenkatalog-Tooling und Lakehouse-Plattformen. Plattformen wie Microsoft Fabric, SAP Business Data Cloud, Snowflake und Databricks rücken in den Fokus – kombiniert mit einem Vector-Layer (pgvector, Qdrant, Weaviate) für GenAI-Workloads.
1. Was AI-Ready Data wirklich ist – und warum „hohe Datenqualität" nicht reicht
Der häufigste Reflex im Mittelstand: „Wir haben doch Datenqualität gemacht. Excel-Listen sind sauber. ERP ist gepflegt. Was soll daran KI-fähig sein?" – und genau dort beginnt das Missverständnis. Die Gartner-Definition von AI-Ready Data ist enger und strenger als klassische Datenqualität:
„Data is AI-ready when it is representative of the use case – including the patterns, errors, outliers and unexpected emergence needed to train or run an AI model for a specific use."
Drei Verschiebungen machen den Unterschied:
- Vom statischen Check zum kontinuierlichen Eignungsnachweis. Klassische Datenqualität misst Vollständigkeit, Aktualität, Konsistenz – einmal pro Quartal. AI-Ready Data verlangt, dass Daten fortlaufend gegen den konkreten Use Case geprüft werden: Stimmt die Verteilung noch? Wandern die Eingabedaten ab (Data Drift)? Funktioniert das Modell unter heutigen Bedingungen noch so wie zum Trainingszeitpunkt?
- Vom „sauber" zum „repräsentativ". Für Analytics räumen wir Ausreisser weg. Für KI brauchen wir sie – sonst lernt das Modell ein zu glattes Bild. Das ist eine Umkehrung der Datenarbeits-Logik, die viele BI-Teams im Mittelstand noch nicht verinnerlicht haben.
- Vom Eigentum der IT zum Eigentum der Fachdomäne. AI-Ready Data ist nicht über zentrale IT-Pipelines herstellbar. Die Fachdomäne (Vertrieb, Einkauf, Produktion, Service) muss Datenproduzent und Daten-Eigentümer sein – inklusive Verantwortung für Definitionen, Qualitäts-Service-Level und Bias-Risiken im eigenen Bereich.
Roxane Edjlali, Senior Director Analyst bei Gartner, hat es auf dem Data & Analytics Summit 2026 in einem Satz zusammengefasst: „AI-ready data is always contextual and use-case dependent. Organizations cannot rely on one-time data quality checks."
| Dimension | Klassische Datenqualität | AI-Ready Data 2026 |
|---|---|---|
| Prüf-Kadenz | Quartalsweise, projektbezogen | Kontinuierlich, an Modell-Eval gekoppelt |
| Ausreisser | Entfernen / bereinigen | Bewahren, wenn repräsentativ |
| Datenherkunft | In der Regel nicht dokumentiert | Lineage Pflicht (EU-KI-VO Art. 10) |
| Bias-Bewertung | Kein Standardprozess | Mandatorisch, dokumentiert |
| Verantwortung | Zentrale IT / Data-Warehouse-Team | Fachdomäne als Daten-Owner |
| Form | Strukturiert (ERP / BI) | Strukturiert + unstrukturiert (Texte, PDFs, Bilder, Audio) |
| Zugriff | SQL-Reports auf Anfrage | API / Self-Service / RAG-Layer in Echtzeit |
2. Warum 60 Prozent der KI-Projekte an Daten scheitern – die echten Bremsen 2026
Wenn Gartner sagt „60 Prozent der KI-Projekte werden bis Ende 2026 abgebrochen", klingt das nach Modell-Versagen. Die Folio3-Analyse von 140 Enterprise-KI-Implementierungen zeigt das Gegenteil: Nur 23 Prozent der Misserfolge gehen auf Modell-Performance, Datenqualität oder Integrationskomplexität zurück. Die anderen 77 Prozent sind organisatorisch – Strategie, Governance, Change Management.
Das wiederum ist konsistent mit der Computerwoche-/Lufthansa-Industry-Solutions-Studie „AI-ready Data Platforms 2026": Die drei häufigsten Bremsen in der DACH-Region sind mangelnde Datenqualität (30 %), fragmentierte Datenlandschaften (28 %) und träge IT-Prozesse (25 %) – nicht das Modell. Und die Precisely-Studie „State of Data Integrity and AI Readiness 2026" zeigt eine harte Vergleichszahl für deutsche Unternehmen: Nur 34 Prozent erzielen aktuell einen positiven KI-ROI oder erwarten ihn in den nächsten sechs Monaten – im Vereinigten Königreich sind es über 45 Prozent.
Die Botschaft hinter den Zahlen ist unbequem, aber klar: Wer 2026 KI ohne Datenstrategie startet, baut Innovation auf einem Schuldenberg. Jeder schnelle Pilot vergrössert ihn. Jeder zweite Workshop, der über Modelle redet statt über Datenflüsse, kostet ein Quartal.
3. Die sechs Dimensionen einer belastbaren KI-Datenstrategie
Aus der Schnittmenge der Bitkom-Daten 2026, der Gartner-Empfehlungen zu AI-Ready Data, des Gartner D&A Summit 2026 und der LHIND-Studie lässt sich für den deutschen Mittelstand ein Sechs-Dimensionen-Modell ableiten. Wer in einem Standortbestimmungs-Workshop alle sechs Achsen sauber abfragt, hat die Diskussion mit Vorstand und CIO bereits halb gewonnen.
| Dimension | Schlüsselfrage | Typische Realität im DACH-Mittelstand |
|---|---|---|
| 1. Daten-Inventar | Wissen wir, welche Daten wir wo haben? | SharePoint, ERP, CRM, PIM, Netzlaufwerke, Confluence – meist kein vollständiger Katalog |
| 2. Daten-Eigentum | Wer ist verantwortlich für Qualität und Definition? | Häufig „IT" pauschal – nicht die Fachdomäne; Folge: niemand fühlt sich zuständig |
| 3. Daten-Plattform | Auf welchem Fundament laufen Analytics und KI? | Klassische DWH-Welten (Oracle, MS SQL), zunehmend Lakehouse (Databricks, Snowflake) und Microsoft Fabric |
| 4. Daten-Zugriff | Können KI-Systeme rechte-/rollenkonform auf Daten zugreifen? | SSO + RBAC oft solide; Row-Level Security, Maskierung, PII-Detection meist Lücke |
| 5. Daten-Lineage & Bias | Können wir Herkunft, Veränderungen und Bias dokumentieren? | Häufig nicht – wird ab 2. August 2026 zum EU-KI-VO-Problem für Hochrisiko-Systeme |
| 6. Sponsorship & Kompetenz | Wer treibt die Datenstrategie – und kann das Team sie umsetzen? | Verantwortung verteilt zwischen CIO, CDO, CTO; KI-Kompetenz nach EU-KI-VO Art. 4 oft nur formal |
Wer auf zwei oder mehr Dimensionen rote Ampeln hat, sollte mit dem Use-Case-Backlog noch nicht losziehen – jede KI-Initiative wird sonst gegen genau diese Lücke laufen. Ein ehrlicher Standortbestimmungs-Workshop liefert die Voraussetzung, im KI-Reifegrad-Modell überhaupt von Stufe 2 (Anwenden) nach Stufe 3 (Automatisieren) zu kommen.
4. Die Architektur-Optionen 2026: Lakehouse, Warehouse oder Hybrid?
Die DACH-Datenstrategie-Analyse von digital-chiefs.de zeigt, was 2026 in deutschen CIO-Roadmaps passiert: Budgets verlagern sich von Prompt-Engineering-Workshops und Tool-Spielwiesen in Master-Data-Management, Datenkatalog-Tooling und Lakehouse-Plattformen. Die strategische Frage ist nicht mehr „Welches LLM?", sondern „Auf welchem Datenfundament fahren wir 2030?".
Vier Architektur-Lager sind 2026 relevant für den deutschen Mittelstand. Keines davon ist objektiv „das richtige" – die Entscheidung fällt entlang Datenmenge, vorhandener Tool-Welt und KI-Use-Case-Profil.
| Plattform | Ansatz | Stärke 2026 | Wann sinnvoll |
|---|---|---|---|
| Databricks | Lakehouse + Delta Lake + Unity Catalog + Mosaic AI | Tiefe ML-/Engineering-Workloads, offene Formate (Delta, Iceberg) | ML-Pipelines, Custom-Modelle, Multi-Cloud, Engineering-starke Teams |
| Snowflake (Cortex) | Cloud-Data-Warehouse + Cortex AI + Iceberg-Support (GA seit April 2025) | SQL-first, governed BI, LLM-Funktionen direkt aus SQL, multimodal via Cortex AI Functions | BI-Organisationen, die KI inkrementell anflanschen – ohne separate ML-Plattform |
| Microsoft Fabric | SaaS-Plattform mit OneLake, Mirroring, Data Factory, Copilot-Integration | Tiefe Integration in M365 / Power BI; Mirroring für SAP via SAP Datasphere ab 2026 GA | Microsoft-365-zentrierte Unternehmen mit Power-BI-Bestand |
| SAP Business Data Cloud | SAP-Datenprodukte, Joule-Integration, BDC Connect für Microsoft Fabric (Q3 2026 GA geplant) | Semantisch reiche SAP-Datenprodukte ohne Replikation; bi-direktionales Zero-Copy mit OneLake | SAP-getriebene Unternehmen (S/4HANA, RISE/GROW) – stärkster Hebel im klassischen Mittelstand |
Die Quellen für die Architektur-Daten sind öffentlich nachprüfbar: Snowflake Cortex AI, Microsoft Fabric – SAP-Connectivity und Build-2026-Roadmap, SAP BDC Connect for Microsoft Fabric (geplant Q3 2026), Databricks Lakehouse-Übersicht.
Drei Konvergenz-Effekte sind 2026 entscheidend: Erstens, Snowflake und Databricks nähern sich technisch an – beide setzen auf Apache Iceberg als offenes Tabellenformat. Zweitens, SAP und Microsoft öffnen die SAP-Welt für Microsoft Fabric mit Zero-Copy-Sharing über SAP BDC Connect – ein Game-Changer für die vielen Mittelständler, die heute auf einer S/4HANA-Migration sitzen. Drittens, die Plattformen werden zunehmend „AI-native": Snowflake Cortex und Databricks Mosaic AI bringen LLM-Funktionen direkt an die Daten, statt Daten aus dem Warehouse in eine separate KI-Welt zu kopieren.
5. Der Vector-Layer: das neue Pflichtstück im KI-Datenstack
Klassische Warehouses und Lakehouses sind zwingend, aber nicht ausreichend. Generative KI braucht eine zweite Daten-Schicht, die mit semantischer Ähnlichkeit umgehen kann: den Vector Store. Hier werden Dokumente, Fragmente, Bilder oder Tabellenzeilen in Embeddings (Zahlenrepräsentationen) abgelegt, damit ein LLM bei einer Frage die relevantesten Stücke finden und in seine Antwort hereinholen kann – das Prinzip Retrieval-Augmented Generation (RAG).
Die Vector-Database-Landschaft hat sich 2024–2026 konsolidiert. Vier Optionen sind im deutschen Mittelstand realistisch – und der einfache Default ist heute selten Pinecone, sondern oft pgvector auf der ohnehin laufenden PostgreSQL-Datenbank.
| Lösung | Modell | Komfort-Skala 2026 | Preis-Indikation |
|---|---|---|---|
| pgvector | PostgreSQL-Extension (Open Source) | bis ~5–10 Mio. Vektoren komfortabel; ACID; SQL-Filter | 0 € extra, wenn Postgres läuft |
| Qdrant | Open Source (Rust); EU-Hosting möglich; Cloud + Private | 10–100 Mio. Vektoren, hohe Filter-Performance | Cloud ab ~25 USD/Mo, Free Tier 1 GB |
| Weaviate | Open Source (Go); Hybrid Search (Vektor + BM25 + Filter) | Hybrid-Search-Spezialist; Multi-Tenancy nativ | Flex ab 45 USD/Mo, Plus 280 USD/Mo |
| Pinecone | Proprietär; vollständig managed (SaaS) | Milliarden Vektoren, konstant niedrige Latenz, Zero-Ops | Storage 0,33 USD/GB, RU/WU usage-based, ab ~50 USD/Mo |
Quellen für die Vektorbank-Daten: Pinecone Pricing, Weaviate Pricing, Qdrant Cloud, pgvector GitHub. Mehrere Benchmarks und Produktionsmigrationen 2026 bestätigen: Unter rund 5 Mio. Vektoren oder im PostgreSQL-Bestand ist pgvector pragmatisch unschlagbar; Pinecone wird ab grösseren Volumina schnell teuer und bringt Vendor-Lock-in ohne Self-Host-Option mit; Qdrant ist die starke EU-Antwort, wenn Sie Self-Hosting brauchen.
Für die meisten Mittelständler heisst das: erst die Daten ordnen, dann pgvector im bestehenden Postgres aktivieren, später erst zu spezialisierten Vector-DBs wechseln – und nur dann, wenn Volumen oder Latenz es wirklich erzwingen. Wer mit Pinecone startet, weil es „Standard" sei, zahlt schnell ein Vielfaches und bindet sich an ein US-SaaS in einem Bereich, wo eine souveräne EU-Lösung längst verfügbar ist.
6. EU-KI-Verordnung Art. 10: Warum Datenstrategie 2026 zur Pflicht wird
Artikel 10 der EU-KI-Verordnung („Data and data governance") ist der Paragraf, der Datenstrategie aus dem Nice-to-have-Bereich in die Pflicht-Sphäre hebt – jedenfalls für Hochrisiko-KI-Systeme im Sinne von Anhang III (z. B. KI in HR-Screening, Kreditscoring, kritischer Infrastruktur, Bildung, Strafverfolgung). Die Pflichten gelten ab dem 2. August 2026 (offizieller Stand der KI-VO-Übersicht; eine politische Diskussion über Verschiebungen einzelner Hochrisiko-Pflichten läuft 2026 – aber die Trainings- und Testdaten-Pflichten gelten bereits jetzt als Branchen-Standard).
Was Artikel 10 wörtlich verlangt – nach der aktuellen Analyse des AI Act Service Desk der Europäischen Kommission und der Praxis-Lesart bei Legalithm:
Artikel 10 EU-KI-VO – die acht konkreten Daten-Governance-Pflichten
-
Design Choices. Begründete Entscheidungen über Auswahl und Aufbau der Daten – dokumentiert.
-
Data Collection & Origin. Herkunft der Trainings-, Validierungs- und Testdaten ist nachweisbar – Shadow-Datensätze oder unklar gescrapte Daten sind ein direktes Compliance-Risiko.
-
Data Preparation. Aufbereitungsschritte (Bereinigung, Labelling, Anreicherung, Aggregation) dokumentiert.
-
Annahmen. Welche Annahmen über die Daten wurden getroffen? (z. B. „Daten repräsentieren den deutschen Markt").
-
Verfügbarkeit, Menge und Eignung. Sind die Datensätze ausreichend gross und für den Zweck geeignet?
-
Bias-Examination. Systematische Prüfung auf Verzerrungen, die Gesundheit, Sicherheit oder Grundrechte gefährden können.
-
Bias-Mitigation. Identifikation allein reicht nicht – konkrete Massnahmen (Re-Sampling, Constraints, Post-Processing) sind Pflicht.
-
Identifikation relevanter Datenlücken. Wo das vorhandene Datenset Schwächen hat, muss das dokumentiert sein – nicht stillschweigend ausgeblendet.
Drei praktische Konsequenzen für die Datenstrategie 2026:
- Lineage wird zum Pflicht-Asset. Ohne nachweisbare Datenherkunft und Veränderungsverlauf ist keine Art.-10-Konformität führbar. Tools wie Unity Catalog (Databricks), Horizon Catalog (Snowflake) oder die Microsoft-Purview-Schicht in Fabric werden 2026 zum Compliance-Tooling, nicht nur zum Data-Governance-Tooling.
- Domain-Owner schreiben mit. Bias-Examination ist nicht von der IT herstellbar – die Fachdomäne, deren Daten verwendet werden, muss aktiv mitprüfen. Wer 2026 noch eine zentrale Data-Engineering-Truppe ohne Domain-Bindung betreibt, scheitert nicht an der Technik, sondern am Audit-Bericht.
- Auch wer keine Hochrisiko-Systeme baut, lebt im Schatten von Art. 10. Grosse Industrie-Kunden fragen Datengovernance bereits 2026 in Lieferantenfragebögen ab. Wer keine Antworten hat, fliegt aus Long-Lists. Die Verbindung zu ISO/IEC 42001 als KI-Managementsystem-Norm ist 2026 ein zunehmender Vertriebs-Hebel im B2B-Mittelstand.
Wer das ernst meint, kommt nicht ohne eine konsistente KI-Richtlinie aus, die die Daten-Governance mit der EU-KI-VO und der DSGVO synchronisiert.
7. Sieben Anti-Patterns, an denen deutsche Datenstrategien scheitern
Die DACH-CIO-Beobachtungen 2026 und Erfahrungen aus 1.000+ produktiven Use Cases in Plotdesk-Projekten ergeben ein bemerkenswert konsistentes Bild davon, wo Datenstrategien typischerweise abbiegen – und scheitern.
1. „Wir machen erst Use Cases, dann Daten."
Klassischer Reflex aus der Pilot-Phase: schnell ein Chatbot, schnell ein RAG, schnell ein Showcase. Funktioniert für die Vorstandspräsentation – stirbt beim ersten echten Volumen. Daten und Use Cases müssen parallel wachsen, nicht sequenziell.
2. „Wir kippen erstmal alles in einen Data Lake."
Aus einem Datensee wird selten ein Datenprodukt – ohne Domain-Owner, Schema-Verträge und Service-Levels entsteht ein Datensumpf. Der Gartner-Begriff „Data Swamp" beschreibt seit Jahren genau diesen Zustand.
3. „Die IT macht das."
Wer die Verantwortung für Daten-Definitionen an die zentrale IT delegiert, bekommt technisch saubere, semantisch unklare Daten. Die Fachdomäne muss Definitionen, Qualitäts-Erwartungen und Akzeptanzkriterien liefern – die IT betreibt die Plattform.
4. Pinecone als Default, weil „alle nehmen das".
Pinecone ist ein gutes Produkt – aber für die meisten Mittelständler 2026 die teuerste, am stärksten gebundene Option ohne Self-Host. pgvector auf vorhandenem Postgres oder Qdrant (mit EU-Hosting) sind die rationaleren Default-Wahlen.
5. „Wir kaufen eine Plattform für alles."
Lakehouse + Warehouse + Vector + Datenkatalog + ML-Plattform aus einer Hand klingt nach Vereinfachung – führt aber in 80 % der Fälle zum Vendor-Lock-in. Die [Multi-Modell-/Multi-Plattform-Strategie](/magazin/multi-modell-ki-strategie-vendor-lock-in-vermeiden) ist 2026 der Default vorausschauender CIOs.
6. „Wir kümmern uns um EU-KI-VO Art. 10, wenn es soweit ist."
Lineage und Bias-Doku lassen sich rückwirkend nicht herstellen. Wer 2026 produktive Daten-Pipelines aufbaut ohne Lineage-Capture, hat 2027 eine Lücke, die ein Auditor erkennt – und nicht mehr verzeiht.
7. „Shadow AI verbieten."
Verbote schaffen [Shadow AI](/magazin/shadow-ai-risiko-unternehmen-loesungen), nicht Compliance. Die einzig dauerhaft tragfähige Antwort ist eine offizielle, leicht zugängliche KI-Plattform mit Datenanbindung – sonst exportieren Mitarbeitende interne Daten weiter in private ChatGPT-Tabs.
8. Der 90-Tage-Plan: vom Datensilo zur ersten produktiven KI-Foundation
Eine vollständige Datenstrategie braucht 12–18 Monate, kein „90-Tage-Wunder". Aber: In 90 Tagen lässt sich aus der heutigen Realität ein belastbarer erster Use Case mit dahinterliegender Mini-Foundation aufbauen, der Vorstand, CFO und CISO eine gemeinsame Sicht gibt – und an dem alle weiteren Use Cases dann ungleich schneller skalieren. Der folgende Plan ist das vereinfachte Drehbuch, das wir in Plotdesk-Engagements im deutschen Mittelstand fahren.
Daten-Inventar & Use-Case-Backlog (gemeinsam)
Woche 1–2Workshop mit den 2–3 wichtigsten Fachdomänen: Welche Datenquellen liegen wo? Welche Use Cases sind realistisch? Output: ein priorisierter Backlog (Impact × Datenverfügbarkeit × Umsetzbarkeit) und eine grobe Karte der Datenlandschaft. Pflicht-Output für den nächsten Schritt: ein klar abgegrenzter Erst-Use-Case mit Daten-Eigner.
Architektur-Entscheidung (light)
Woche 3–4Keine 6-Monats-Architektur-Konzeption – sondern eine Entscheidung, die für den Erst-Use-Case trägt: Welche Quelle wird angebunden? Welche Plattform (vorhandene DWH/Lakehouse, oder pragmatisch erstmal pgvector auf Postgres)? Welche Identity- und Berechtigungslogik? EU-Hosting-Pflichten dokumentieren.
Daten-Pipeline & RAG-Layer aufsetzen
Woche 5–8Echte Daten, kein Synthetisches: Quelle anbinden, Bereinigung, Embedding, Vector-Index aufsetzen. Lineage von Beginn an mitprotokollieren – nicht später nachziehen. Erste Eval-Schleife (Golden-Set) mit echten Beispielen aus der Fachdomäne.
Use-Case live + erste Wirkungsmessung
Woche 9–10Power-User-Round 1: 5–10 Mitarbeitende aus der Domäne testen produktiv. Latenzen, Trefferquoten, Halluzinationsraten messen – und die ersten ROI-Datenpunkte (Zeitersparnis, Fehlerreduktion) sammeln. Erste Adoption-Hindernisse aufnehmen.
Übergabe-Dokument: Foundation-Status & Roadmap
Woche 11–12Vorstandstaugliches Dokument: Was haben wir gebaut, was ist möglich, ROI-Datenpunkte, technische Architektur, Lineage- und Bias-Dokumentation Art.-10-konform, Skalierungs-Empfehlung. Daraus wird der Sprung zu Use Cases 2–3 und zur eigentlichen Plattform-Investition geplant.
Der entscheidende Unterschied zur klassischen Beratungs-Roadmap: Nichts davon ist Folie. Am Ende der 90 Tage existiert ein produktives System mit Lineage, ersten Wirkungs-Zahlen und Skalierungspfad – nicht ein Strategiepapier. Wer das einmal sauber durchläuft, ist im KI-Reifegradmodell auf dem Sprung von Stufe 2 (Anwenden) zu Stufe 3 (Automatisieren).
9. Was eine KI-Datenstrategie wirklich kostet – die CFO-Sicht
Datenstrategie hat den Ruf, ein Riesenprojekt mit Millionen-Volumen zu sein – und ist es manchmal. Im Mittelstand ist die Realität 2026 differenzierter. Drei Kostenblöcke bestimmen die Gesamtrechnung:
- Plattform-Sockel. Lakehouse / Warehouse / Fabric-Lizenz – je nach Bestand: bei Microsoft-zentrierten Häusern oft schon teilweise vorhanden (Power BI, OneLake-Capacity), bei SAP-getriebenen Häusern via SAP Datasphere/BDC eingebaut, bei „grünen Wiesen" entstehen typisch 50–150 k €/Jahr. Wer nur einen schnellen Erst-Use-Case will, kommt mit deutlich weniger aus.
- Vector-/RAG-Schicht. pgvector auf vorhandenem Postgres: nahezu null Zusatzkosten. Qdrant Cloud oder Weaviate Flex: Tausend bis wenige Tausend Euro pro Jahr für die meisten Mittelstand-Volumen. Pinecone: kann ab grösseren Volumen sechs- bis siebenstellig werden – Vorsicht.
- Engineering & Governance. Die grösste Position, wenn man ehrlich rechnet. Datenkatalog-Tooling (Collibra, Atlan, Databricks Unity Catalog, MS Purview) plus dedizierte Daten-Owner-Rollen in den Fachdomänen.
Die LHIND-/Computerwoche-Studie 2026 zeigt, dass Unternehmen primär auf Effizienz (55 %) und Kostenreduktion (49 %) als Ziel ihrer AI-Ready-Data-Investitionen abzielen – Umsatzwachstum nennen nur 23 %. Fachbereiche allerdings sehen Umsatzwirkung deutlich höher. Diese Diskrepanz lohnt ein eigenes Vorstandsgespräch: Datenstrategie ist 2026 nicht nur Kosten-, sondern Wachstumshebel – wenn der Business Case sauber aufgesetzt ist (siehe ROI berechnen für KI-Projekte).
Faustregel für den Business Case 2026
Wer einen ersten produktiven Use Case in 90 Tagen aufbaut und 5–10 Mitarbeitende daran spürbar entlastet, generiert in deutschen Stundensatz-Realitäten typischerweise einen Jahres-Hebel im niedrigen sechsstelligen Bereich – bei Investitionen, die im fünf- bis niedrigen sechsstelligen Bereich liegen. Das ist der Hebel, den der CFO sehen will, bevor in eine grössere Plattform-Investition gegangen wird. Datenstrategie ist also nicht „all in" – sie ist iterativ, mit klaren Quartals-Wirkungspunkten.
10. Wo Plotdesk in der Datenstrategie ansetzt
KI-Datenstrategie ist 2026 keine Toolfrage, sondern eine Operating-Model-Frage: Wer ist Daten-Eigner? Welche Architektur trägt die nächsten fünf Jahre? Welche Use Cases haben wirklich wirtschaftlichen Hebel? Wie wird Art.-10-Konformität dokumentiert, ohne dass Compliance zum Selbstzweck wird? Plotdesk arbeitet hier mit deutschen Mittelständlern an vier Punkten:
- AI Readiness Check. In einer strukturierten Discovery klären wir Daten-Inventar, Use-Case-Backlog und Compliance-Pflichten. Ergebnis ist ein schriftlicher Standortbericht innerhalb von 24 Stunden – mit ehrlicher Einordnung im KI-Reifegrad-Modell.
- AI Impact Workshop. Wir priorisieren Use Cases nach Impact × Datenverfügbarkeit × Umsetzbarkeit und entwerfen die passende Mini-Daten-Foundation für den Erst-Use-Case. Formate und Investitionsrahmen unter /workshops.
- Proof of Value. Vier-Wochen-Sprint mit echten Daten, Lineage von Tag 1, einem produktiven RAG-Layer und einer Skalierungs-Empfehlung mit Vorstandstauglichem ROI-Bericht.
- Custom AI Solution + Plotdesk Advisory. Für die Skalierung auf weitere Use Cases und die strukturelle Verankerung von Daten-Governance: Multi-Plattform-Strategie, EU-AI-Act-Mapping, Outcome-SLAs, fortlaufendes Sparring zu Architektur-Wechseln und neuen Regulierungen.
Was wir bewusst nicht machen: ein 18-Monats-Strategiepapier ohne lauffähiges System. Datenstrategie wird im Mittelstand 2026 nicht durch Whitepaper bewegt – sondern durch den ersten produktiven Use Case, an dem Fachbereich, IT und CFO erkennen: „So sollte es bei uns überall sein."
Wo steht Ihre Datenstrategie heute – ehrlich?
Im Discovery-Call ordnen wir Ihre Datenlandschaft auf den sechs Dimensionen ein, identifizieren konkrete AI-Ready-Lücken und empfehlen den nächsten ehrlichen Schritt – innerhalb von 24 Stunden bekommen Sie den schriftlichen AI Readiness Check.
11. Häufige Fragen zur KI-Datenstrategie 2026
Brauchen wir wirklich ein Lakehouse oder Snowflake – oder reicht unser DWH?
Es kommt darauf an, was Sie 2030 können wollen. Klassische DWHs (Oracle, MS SQL, Exasol) tragen heute hervorragend strukturierte BI-Workloads. Sobald Sie aber multimodale Daten (Texte, PDFs, Bilder, Audio) in den KI-Workflow integrieren wollen, kommen Sie um eine Erweiterung mit Lakehouse-, Object-Storage- oder Vector-Schicht praktisch nicht herum. Für viele Mittelständler ist 2026 nicht „ersetzen", sondern „ergänzen" der pragmatische Weg: DWH bleibt für strukturierte BI, daneben entsteht eine Lakehouse-/Vector-Schicht für KI-Use-Cases.
Wir nutzen SAP. Lohnt sich Microsoft Fabric / SAP Business Data Cloud schon 2026?
Bei vielen SAP-zentrierten Mittelständlern wird die SAP-Business-Data-Cloud-/Microsoft-Fabric-Brücke 2026 zum strategischen Topthema. SAP und Microsoft haben Ende 2025 angekündigt, dass SAP BDC Connect for Microsoft Fabric in Q3 2026 generally available wird – mit bi-direktionalem Zero-Copy-Sharing zwischen SAP-Datenprodukten und Microsoft OneLake. Wer auf S/4HANA Cloud unterwegs ist oder dorthin migriert, sollte spätestens 2026 evaluieren. Mirroring via SAP Datasphere ist bereits GA. Wer noch auf S/4HANA On-Premise sitzt, hat den Weg über die BTP-Add-On-Welt offen – aber weniger nativ.
Sollten wir wirklich pgvector statt Pinecone nehmen?
In den meisten Mittelstands-Szenarien 2026: ja, zumindest am Anfang. pgvector ist Open-Source-Erweiterung für PostgreSQL, kostet nichts extra (wenn Sie ohnehin Postgres betreiben), kennt SQL-Filter und ist ACID-konform. Bis rund 5–10 Mio. Vektoren ist es performant – und das deckt typische RAG-Use-Cases im Mittelstand mit Faktor 10 ab. Pinecone wird interessant, wenn Sie zweistellige Millionen-Vektoren brauchen, sub-50ms-p99-Latenz unter hoher Last fordern und kein eigenes Ops-Team haben. Wer mit Pinecone „in der Vorsicht" startet, zahlt unnötig und bindet sich an einen proprietären US-SaaS, wo ein deutscher Postgres längst genügt.
Wie verhält sich Datenstrategie zur EU-KI-Verordnung konkret?
Artikel 10 der KI-VO betrifft direkt Hochrisiko-KI-Systeme (Anhang III): HR-Screening, Bonitätsbewertung, KI in kritischer Infrastruktur, Bildung, Strafverfolgung. Für diese gelten dokumentierte Daten-Governance-Pflichten – Datenherkunft, Repräsentativität, Bias-Prüfung, Lineage – die Pflichten greifen ab dem 2. August 2026 für neue Hochrisiko-Systeme (eine Trilog-Diskussion über Verschiebungen einzelner Pflichten lief 2026, formale Verabschiedung steht aus). Aber selbst wer keine Hochrisiko-Systeme baut, sollte 2026 Lineage und Bias-Dokumentation aufbauen: Lieferantenfragebögen von Grosskunden und ISO/IEC 42001 als KI-Managementsystem-Norm verlangen das faktisch ebenfalls.
Wer sollte die KI-Datenstrategie verantworten – CIO, CDO oder CTO?
Im DACH-Mittelstand variiert das stark – und genau das ist das Problem. Die Precisely-Studie 2026 zeigt, dass fragmentierte Verantwortung ein zentraler Grund für ausbleibenden KI-ROI in Deutschland ist. Empfehlenswert ist eine klare Sponsorship-Logik: Eine Person als „Datenstrategie-Lead" (häufig CDO oder Head of Data, in kleineren Häusern auch CIO mit Datenmandat) mit Mandat über alle Fachdomänen. Plus Daten-Owner pro Domäne, die Service-Levels und Definitionen für ihre Daten verantworten. Wichtig: KI-Verantwortung und Datenverantwortung sind 2026 nicht trennbar – wer hier zwei getrennte Rollen ohne klare Koppelung schafft, baut Politik statt Wirkung.
Wir haben schon Microsoft 365 Copilot. Brauchen wir trotzdem eine eigene Datenstrategie?
Ja, und zwar noch mehr als ohne Copilot. M365 Copilot greift standardmässig auf die in Microsoft Graph indizierten Daten (E-Mails, Teams, OneDrive, SharePoint) zu – ist also direkt an Ihre Datenlage gekoppelt. Wenn Ihre SharePoint-Welt eine Müllhalde aus 20 Jahren ist, halluziniert Copilot fröhlich aus Altlasten. Eine Datenstrategie 2026 umfasst dann zwingend SharePoint/Teams-Hygiene, Sensitivity Labels, Berechtigungs-Audit und Records Management – sonst arbeitet der Copilot zwar, aber gegen Sie.
Welche Tools für Datenkatalog und Lineage sind 2026 relevant?
Drei Lager: Plattform-nativ (Unity Catalog bei Databricks, Horizon Catalog bei Snowflake, Microsoft Purview in Fabric) – meist die pragmatische Default-Wahl, wenn Sie ohnehin in dieser Welt sind. Spezialisierte Plattformen (Collibra, Atlan, Alation, Informatica CDGC) – stärker bei heterogenen Multi-Plattform-Setups und für strenge Governance. Open Source (DataHub, OpenMetadata) – attraktiv für Engineering-starke Häuser, die sich Vendor-Lock-in nicht leisten wollen. Wichtig ist weniger das Produkt als die Disziplin: Ohne Eingabedisziplin der Domain-Owner ist jeder Datenkatalog tot.
12. Fazit: 2026 ist das Jahr, in dem Daten zum strategischen Asset werden
Die wichtigste Verschiebung 2026 ist nicht das nächste Frontier-Modell. Es ist die Erkenntnis, dass KI-Erfolg keine Modell-Frage ist – sondern eine Daten- und Operating-Model-Frage. Die 41 Prozent der deutschen Unternehmen, die KI heute aktiv nutzen, kommen nur deshalb nicht in die 6-Prozent-Liga der AI High Performer, weil ihre Daten nicht KI-fähig sind, ihre Fachdomänen keine Daten-Eigner haben und ihre Plattform-Entscheidungen aus dem Bauch statt aus der Roadmap getroffen werden.
Die gute Nachricht: Die Werkzeugwelt hat 2026 nachgezogen. Microsoft Fabric, Snowflake Cortex, Databricks Lakehouse und – für den deutschen Mittelstand besonders relevant – SAP Business Data Cloud + BDC Connect for Microsoft Fabric machen es zum ersten Mal pragmatisch möglich, semantisch reiche Geschäftsdaten ohne sechsfache Kopie für KI nutzbar zu machen. Vektor-Layer mit pgvector und Qdrant sind im EU-Hosting bezahlbar und souverän. Der EU-AI-Act-Konformitätspfad ist machbar – wenn man heute mit Lineage anfängt, nicht erst 2027.
Die zweite gute Nachricht: Sie müssen 2026 nicht „all in" gehen. Ein erster produktiver Use Case mit dahinterliegender Mini-Foundation in 90 Tagen liefert das Bild, an dem Vorstand, CFO und CISO erkennen, was eine wirkliche Datenstrategie ist. Der zweite und dritte Use Case folgen ungleich schneller – auf der gleichen Foundation, mit den gleichen Lineage-Pfaden, mit der gleichen Domain-Owner-Logik.
In welcher Liga Ihr Unternehmen 2027 spielt, entscheidet die Bereitschaft, die eigenen Daten heute wirklich zu sehen. Nicht das beste Modell gewinnt. Sondern die Organisation, die ihre Daten zum produktiven Asset macht – bevor der Wettbewerber es tut.