Ihr Team hat keinen Maßstab für KI

Ein Bericht mit zwei kleinen Fehlern bekommt in Ihrem Haus zwei völlig verschiedene Reaktionen, je nachdem, wer ihn geschrieben hat. Kommt er von einem Mitarbeiter, heißt es: „Guter Anfang, das schleifen wir noch." Kommt er von der KI, passiert eins von zwei Dingen. Entweder wird er ungeprüft weitergereicht, weil es schnell gehen musste. Oder er wird im Haus herumgezeigt, als Beweis, dass KI eben nichts taugt.

Beide Reaktionen kommen aus derselben Lücke. In Ihrer Organisation gibt es keinen gemeinsamen Maßstab dafür, was gute KI-Arbeit ist. Jeder bewertet nach Bauchgefühl, und das Bauchgefühl schwankt mit der Tagesform. Das ist kein Schönheitsfehler im Betrieb. Es kostet Sie an zwei Stellen gleichzeitig.

Was der fehlende Maßstab kostet

Ohne gemeinsamen Maßstab pendelt eine Organisation zwischen zwei Fehlern, und jeder hat seinen Preis.

Zu nachsichtig wird nach außen teuer. Wenn niemand klar prüft, landen erfundene Quellen in Reports, falsche Zahlen in Angeboten, eine halluzinierte Rechtsauskunft in einer Kundenmail. Niemand hat sich dafür entschieden, niemand hat zugestimmt. Der Text war „nur ein Entwurf" und stand trotzdem in dem Dokument, das rausging. Was bleibt, sind Risiken mit Namen: Haftung, Reputationsschaden, verlorenes Vertrauen.

Zu streng wird nach innen teuer. Liefert die KI einen brauchbaren, aber unfertigen Entwurf, fällt das Urteil schnell über die Technik als Ganzes: „Dafür taugt das nicht." Was als gesunde Skepsis gemeint ist, wirkt im Team wie ein Verbot. Wer einmal gehört hat, dass die Ergebnisse ohnehin nichts wert sind, probiert nichts mehr aus. Die Produktivität, die in der Arbeit mit KI steckt, bleibt liegen. Nicht weil die Werkzeuge sie nicht hergeben, sondern weil die Bewertung sie erstickt.

Der erste Fehler ist sichtbar und gefährlich, der zweite unsichtbar und teuer. Eine Organisation, die nur den ersten fürchtet, baut Kontrollen auf und wundert sich, dass trotzdem niemand mit KI arbeitet.

Das alte Bild, das im Weg steht

Hinter beiden Fehlern steckt dasselbe Missverständnis. Wir haben Jahrzehnte mit Computern gearbeitet, die deterministisch funktionieren: Eingabe rein, richtiges Ergebnis raus, sonst eine Fehlermeldung. Aus dieser Erfahrung stammt die stille Erwartung, dass eine Maschine entweder korrekt arbeitet oder kaputt ist.

Sprachmodelle passen nicht in dieses Bild. Sie rechnen mit Wahrscheinlichkeiten, nicht mit Wahrheit, und sie werden im Dialog besser, nicht auf Knopfdruck. Solange das alte Bild die Erwartung steuert, wird jeder unfertige Entwurf als Versagen gelesen und zugleich jede flüssig formulierte Antwort als Wahrheit verbucht.

Bevor das Neue kommen kann, muss das Alte gehen. Das ist hier keine Floskel, sondern die eigentliche Arbeit. Das Bild vom unfehlbaren Rechner abzulegen ist die Voraussetzung dafür, dass ein fairer Maßstab überhaupt greifen kann.

Einen Maßstab bauen, der für alle gilt

Ein Maßstab, der vom Tagesgefühl Einzelner abhängt, ist keiner. Er muss in den Arbeitsablauf eingebaut sein, sonst trägt er nicht. Vier Hebel lassen sich ohne großes Programm umsetzen.

Nach Risiko sortieren, nicht nach Herkunft. Nicht jeder Output braucht dieselbe Prüfung. Entscheidend ist, was auf dem Spiel steht. Geht der Text nach außen oder enthält er Zahlen, Quellen oder rechtliche Aussagen, wird vollständig geprüft. Bleibt er intern und rein formulierend, reicht ein kurzer Blick. Diese Einteilung sollten alle kennen, nicht nur die Vorsichtigen.

Prüfen zu einem Schritt machen, nicht zu einer Tugend. „Bitte gegenprüfen" verlässt sich auf guten Willen. Legen Sie stattdessen fest, wer prüft, bevor etwas das Haus verlässt, und halten Sie es so verbindlich wie eine Freigabe im Vertrieb. Verantwortung, die niemandem gehört, übernimmt am Ende niemand.

Die zweite Runde erlauben. Ein schwacher erster Entwurf ist ein Zwischenstand, kein Urteil. Geben Sie der KI denselben Kontext, den Sie einem neuen Mitarbeiter geben würden: Hintergrund, Ziel, ein Beispiel für gute Arbeit. Wer nach dem ersten Versuch aufgibt, verwechselt eine fehlende Einweisung mit einer fehlenden Fähigkeit.

Fehler als Daten behandeln. Eines unserer sieben Prinzipien lautet: Fehler sind Daten. Das gilt für KI-Fehler genauso. Wenn ein Modell in einem bestimmten Themenfeld regelmäßig danebenliegt, ist das eine Information für den nächsten Prozess. Kein Anlass für einen Screenshot in der Teamgruppe.

Maßstab aus dem Bauch	Maßstab als Prozess
Prüfung hängt an der Tagesform	Prüftiefe richtet sich nach dem Risiko
„Jemand schaut schon drüber"	Eine benannte Person gibt frei
Der erste Entwurf entscheidet über das Werkzeug	Die zweite Runde ist eingeplant
KI-Fehler werden geteilt	KI-Fehler werden ausgewertet

Den Maßstab kann nur die Führung setzen

Diese Hebel klingen technisch, sind es aber nicht. Sie verlangen eine Entscheidung darüber, was im Haus als gute Arbeit gilt. Die kann niemand von außen treffen. Sie entsteht dort, wo Führung selbst mit KI gearbeitet hat und einschätzen kann, was einen brauchbaren von einem schwachen Output unterscheidet.

Wer KI nur freigibt, aber nie selbst benutzt, hat keinen Maßstab. Er hat ein Bauchgefühl, das mit der nächsten Schlagzeile kippt, mal zu streng, mal zu nachsichtig. Und genau das gibt er an seine Teams weiter.

Die Frage ist deshalb nicht, wie gut KI ist. Die Frage ist, nach welchem Maßstab Sie das beantworten und ob er für alle im Haus derselbe ist. Das ist eine Führungsentscheidung, keine IT-Aufgabe. Sie beginnt damit, dass Sie selbst genau hinsehen, was die KI Ihnen liefert, bevor Sie urteilen.

Ihr Team hat keinen Maßstab für KI.

Was der fehlende Maßstab kostet

Das alte Bild, das im Weg steht

Einen Maßstab bauen, der für alle gilt

Den Maßstab kann nur die Führung setzen

Rico Loschke