Was generative KI heute kann: Eine ehrliche Einordnung für Entscheider

Zwei Szenen aus LinkedIn, stellvertretend für den Zustand der KI-Debatte. Szene eins: Jemand lässt eine KI eine Deutschlandkarte generieren, Sachsen fehlt, Kommentar darunter: "Und damit soll ich mein Unternehmen transformieren?" Viele Lacher, viel Zustimmung. Szene zwei: Ein Entwickler zeigt einen Agenten, der eigenständig recherchiert, E-Mails schreibt, Meetings plant und nebenbei eine Datenbank aufräumt. Standing Ovations.

Beide Szenen sind real. Beide sind irreführend. Die kaputte Karte sagt nichts über die Fähigkeit von KI, einen Vertrag zu analysieren oder Code zu schreiben. Die Agent-Demo sagt nichts über die Realität in einem Unternehmen mit SAP, Betriebsrat und Freigabeprozessen, die allein sechs Monate dauern.

Für Führungskräfte, die gerade Entscheidungen über KI-Strategie, Budgets und Rollouts treffen, ist diese Verzerrung ein Problem. Wer sich an der kaputten Karte orientiert, investiert zu wenig. Wer sich an der Agent-Demo orientiert, investiert falsch. Dieser Artikel ist der Versuch einer ehrlichen Einordnung. Nicht basierend auf Benchmarks oder Pressemeldungen, sondern auf dem, was wir in der täglichen Arbeit mit diesen Technologien erleben.

Was "funktioniert" in der Praxis bedeutet

Bevor es in die Details geht, eine Klarstellung. Wenn wir sagen, eine KI-Fähigkeit "funktioniert", meinen wir nicht: fehlerfrei. Wir meinen: Man kann damit produktiv arbeiten, wenn man weiß, was man tut.

Excel funktioniert auch. Trotzdem produzieren Menschen damit jeden Tag Tabellen voller Fehler. Photoshop funktioniert. Trotzdem sehen die meisten Ergebnisse von Anfängern furchtbar aus. Kein Werkzeug funktioniert ohne Kompetenz. Bei KI ist das nicht anders. Nur dass viele Menschen erwarten, dass es anders sein sollte.

Produktionsreif heißt nicht fehlerfrei. Es heißt: brauchbar für Leute, die wissen, was sie tun. Wie jedes professionelle Werkzeug.

Diese Unterscheidung ist wichtig, weil sie beide Lager korrigiert. Die Skeptiker, die aus Einzelfehlern auf generelle Untauglichkeit schließen. Und die Enthusiasten, die so tun, als müsste man nur den richtigen Prompt schreiben und alles löse sich von selbst.

14 Fähigkeiten, vier Gruppen, eine Bestandsaufnahme

Generative KI ist kein monolithisches Werkzeug. Sie besteht aus unterschiedlichen Fähigkeiten, die unterschiedlich weit entwickelt sind. In unserer Arbeit haben sich 14 Meta-Fähigkeiten herauskristallisiert, die sich in vier Gruppen sortieren lassen. Die Bewertung basiert auf der Arbeitspraxis: 🟢 bedeutet produktiv einsetzbar. 🟡 bedeutet, funktioniert mit Einschränkungen. 🔴 bedeutet, beeindruckende Demos, aber noch nicht alltagstauglich.

Gruppe	Fähigkeiten	Status
Text & Denken	Textverständnis, Textgenerierung, Reasoning, Code	🟢 🟢 🟢 🟢
Sehen & Erzeugen	Vision Input, Bildgenerierung, Video	🟢 🟢 🔴
Hören & Sprechen	Audio Input, Audio Output, Realtime	🟢 🟢 🟡
Systemfähigkeiten	RAG, Memory, Agents, Multimodal	🟢 🔴 🟡 🟡

Neun von vierzehn Fähigkeiten sind produktiv einsetzbar. Drei mit Einschränkungen. Zwei sind noch nicht so weit. Das ist die Realität. Nicht die kaputte Deutschlandkarte. Nicht die Agent-Demo.

Text und Denken: Das Fundament steht

Textverständnis, Textgenerierung, Reasoning und Code sind die Bereiche, in denen generative KI am weitesten ist. Das überrascht niemanden. Was viele unterschätzen: Der Sprung im letzten Jahr war nicht inkrementell, er war fundamental.

Code-Assistenz ist der Bereich mit dem klarsten Return on Investment. Anfang 2025 war KI-generierter Code noch ein Startpunkt, der viel Nacharbeit brauchte. Heute entstehen mit KI-Unterstützung komplette Anwendungen. Der Unterschied liegt nicht nur in besseren Modellen. Er liegt in besseren Methoden: strukturierte Spezifikationen statt vager Prompts, konfigurierte Regelsets statt Hoffnung, systematischer Review statt blindem Vertrauen. Extended Thinking hat das Reasoning auf ein neues Level gehoben. Aktuelle Modelle zerlegen komplexe Probleme in Teilschritte und erklären ihre Entscheidungen. Nicht perfekt. Aber gut genug, um damit zu arbeiten.

Sehen und Erzeugen: Mainstream mit einer Ausnahme

Vision Input ist der unterschätzte Durchbruch. Ein Foto vom Whiteboard machen und die Inhalte strukturiert zusammenfassen lassen. Einen Screenshot einer Fehlermeldung hochladen und eine Lösung bekommen. Das funktioniert heute zuverlässig und verändert Arbeitsabläufe mehr als die meisten spektakulären Demos.

Bildgenerierung ist im Mainstream angekommen. Marketing-Teams nutzen sie für Konzeptvisualisierungen, Social-Media-Content, Mockups. Die Qualität reicht für viele professionelle Anwendungen. Ja, Hände werden manchmal falsch dargestellt. Ja, Text in Bildern bleibt fehleranfällig. Aber wer daraus schließt, dass die Technologie nichts taugt, verwechselt eine Schwäche in einem Teilbereich mit einem Gesamturteil.

Video-Generierung ist die Ausnahme. Sora, Veo 3, Kling produzieren beeindruckende Ergebnisse. Aber die Konsistenz über längere Sequenzen schwankt, die Kosten sind hoch, die Steuerbarkeit begrenzt. Für kommerzielle Produktion im großen Stil ist das noch nicht reif.

Hören und Sprechen: Der leise Durchbruch

Sprache war lange die Schwachstelle. Transkription unzuverlässig, synthetische Stimmen robotisch, Echtzeit-Gespräche undenkbar. Das hat sich gedreht.

Transkription funktioniert mit Fehlerraten unter fünf Prozent für die meisten Sprachen. Für Meetings, Interviews, Podcasts ist das längst Standard. Speech-to-Speech ohne den Umweg über Text ist der eigentliche Durchbruch. Neue Modelle verarbeiten Sprache direkt. Das Ergebnis: Latenz in Millisekunden, natürliche Unterbrechungen werden verstanden, der Tonfall bleibt erhalten. Voice-Interfaces fühlen sich zum ersten Mal nicht wie Sprachmenüs an. Realtime-Interaktion funktioniert technisch, ist aber noch nicht ausgereift genug für den Unternehmensalltag.

Systemfähigkeiten: Hier wird es komplex

RAG, also die Einbindung externer Datenquellen in KI-Antworten, funktioniert. Aber es erfordert Expertise bei Chunking, Embedding-Auswahl und Prompt-Design. Wer denkt, man wirft einfach Dokumente in einen Chatbot und bekommt perfekte Antworten, wird enttäuscht.

Agents sind das Buzzword des Jahres. Und ja, sie können heute Recherche-Aufgaben durchführen, Code schreiben und testen, Daten zwischen Systemen synchronisieren. Aber: Fehler in frühen Schritten propagieren durch die gesamte Kette. Kosten können schnell steigen. Die Demo, in der ein Agent autonom eine komplexe Aufgabe löst, ist oft genau das. Eine Demo. In der Praxis brauchen Agents enge Leitplanken und menschliche Kontrolle.

Memory bleibt die größte offene Baustelle. Features existieren bei Claude und GPT, aber die Konsistenz über lange Zeiträume schwankt. Für Enterprise fehlen Compliance-Features. Das Potenzial ist enorm, die Umsetzung noch nicht da.

Was nicht geht: Die ehrliche Seite

Eine Bestandsaufnahme, die nur Stärken zeigt, ist keine Bestandsaufnahme.

Halluzinationen sind nicht gelöst. KI-Modelle generieren manchmal Inhalte, die faktisch falsch sind und absolut überzeugend klingen. Erfundene Zitate, nicht existierende Studien, falsche Zahlen. Das Problem ist beherrschbar mit den richtigen Methoden: verifizierte Quellen, menschliche Prüfung, explizite Aufforderung zur Unsicherheit. Aber gelöst ist es nicht.

Konsistenz ist nicht garantiert. Gleiche Frage, andere Antwort. Das liegt in der Natur stochastischer Modelle. Für kreative Aufgaben ist das nützlich. Für Prozesse, die reproduzierbare Ergebnisse brauchen, ist es ein Problem, das aktiv gemanagt werden muss.

Kosten skalieren. Die Preise pro Token sind gefallen. Trotzdem können KI-Projekte teuer werden. Reasoning-Tokens, agentenbasierte Workflows, iteratives Prompting. Wer das nicht im Blick hat, erlebt Überraschungen.

Wer diese Grenzen ignoriert, wird scheitern. Aber wer aus diesen Grenzen schließt, dass die Technologie insgesamt nicht funktioniert, ignoriert die neun von vierzehn Fähigkeiten, die heute produktiv einsetzbar sind.

Der Engpass hat sich verschoben

Und hier wird es für Organisationen relevant. 2023 war die Frage: Funktioniert die Technologie überhaupt? 2024 war die Frage: Ist sie zuverlässig genug? 2026 lautet die ehrliche Frage: Warum nutzen Sie sie nicht?

Engpass	2023	2024	2026
Technologie	Funktioniert es?	Ist es zuverlässig?	✅ Für die meisten Fälle: Ja
Kompetenz	Kaum vorhanden	Wachsend	⚠️ Größtes Hemmnis
Erwartungen	Überhype	Ernüchterung	⚠️ Immer noch verzerrt
Organisation	Nicht auf dem Radar	Strategie ohne Umsetzung	⚠️ Gap zwischen Können und Machen

In Deutschland nutzen 67 Prozent der Bevölkerung generative KI. Die Unternehmensadoption hat sich innerhalb eines Jahres verdoppelt. Aber fehlendes Wissen ist immer noch das meistgenannte Hemmnis für den KI-Einsatz. Nicht Datenschutz. Nicht Kosten. Wissen.

Die kaputte Deutschlandkarte ist kein Argument gegen KI. Sie ist ein Argument dafür, dass Bildgenerierung Schwächen hat, die jeder kennen sollte, der damit arbeitet. Die Agent-Demo ist kein Beweis, dass KI alles kann. Sie ist ein Beweis, dass die Technologie Potenzial hat, das ohne organisatorische Veränderung ungenutzt bleibt.

Was das für Ihre KI-Strategie bedeutet

Die technischen Ausreden sind aufgebraucht. Neun von vierzehn Fähigkeiten sind produktionsreif. Die Tools sind zugänglich. Die Kosten sind gesunken.

Die Frage ist nicht mehr, ob generative KI funktioniert. Die Frage ist, ob Ihre Organisation die Kompetenz aufbaut, sie einzusetzen. Nicht auf Basis von LinkedIn-Demos und nicht auf Basis von LinkedIn-Fails. Auf Basis einer ehrlichen Einordnung dessen, was heute geht und was nicht.

Wer seine Meinung über KI auf Erfahrungen von vor einem Jahr stützt, urteilt über eine Technologie, die es so nicht mehr gibt. Und wer wartet, bis alles perfekt funktioniert, wartet auf etwas, das bei keiner Technologie jemals eingetreten ist.

Was generative KI heute kann: Eine ehrliche Einordnung für Entscheider.