Warum Eval-Infrastruktur die wichtigste KI-Investition ist, die niemand sehen will
Sie wollen KI-Agenten einsetzen, die Aufgaben autonom erledigen. Vielleicht haben Sie bereits erste Piloten laufen. Doch bevor Sie an Skalierung denken, stellt sich eine unbequeme Frage: Können Sie eigentlich messen, ob Ihr Agent gute Arbeit leistet?
Die Antwort ist in den meisten Unternehmen: Nein. Und genau hier liegt das Problem.
Das Mess-Dilemma: Aktivität ist kein Ergebnis
Der KI-Forscher Andrej Karpathy hat kürzlich demonstriert, wie ein Agent über Nacht 700 Experimente durchführte — vollständig autonom. Das klingt beeindruckend. Doch der entscheidende Punkt ist nicht die Menge der Experimente. Es ist die Tatsache, dass jedes einzelne Experiment automatisch bewertet werden konnte.
Der Grundsatz dahinter lässt sich auf eine einfache Formel bringen: Was Sie nicht bewerten können, können Sie nicht automatisieren.
Die meisten Unternehmen messen bei KI-Projekten die falschen Dinge. Sie zählen API-Aufrufe, tracken Antwortzeiten oder dokumentieren, wie viele Aufgaben ein Agent bearbeitet hat. Das ist Aktivitätsmessung. Was fehlt, ist die Verbindung zum tatsächlichen Geschäftswert.
Ein Beispiel: Ihr KI-Agent beantwortet Kundenanfragen. Sie messen die Antwortzeit (2,3 Sekunden — hervorragend!) und die Anzahl bearbeiteter Tickets (340 pro Tag — beeindruckend!). Aber wissen Sie, ob die Antworten korrekt waren? Ob Kunden danach zufriedener waren? Ob Rückfragen abgenommen haben? Ohne diese Information automatisieren Sie im Blindflug.
Die drei Bausteine, die Sie brauchen
Eval-Infrastruktur klingt abstrakt. Konkret besteht sie aus drei Komponenten, die jedes Unternehmen aufbauen sollte, bevor es KI-Agenten produktiv einsetzt.
1. Eine Scoring Function: Was bedeutet „gut“?
Die Scoring Function definiert, wann ein Agent-Ergebnis geschäftlich wertvoll ist. Das ist schwieriger als es klingt, denn „gut“ ist kontextabhängig.
Für einen Kundenservice-Agenten könnte die Scoring Function so aussehen: Wurde das Anliegen beim ersten Kontakt gelöst? Hat der Kunde nicht innerhalb von 48 Stunden erneut angerufen? Entspricht die Antwort den Compliance-Vorgaben?
Für einen Agenten, der Verträge prüft, wäre es: Wurden alle relevanten Klauseln identifiziert? Stimmen die extrahierten Werte mit dem Originaltext überein? Wurden keine kritischen Risiken übersehen?
Praxis-Tipp: Beginnen Sie nicht mit der perfekten Scoring Function. Beginnen Sie mit der wichtigsten Frage: „Woran erkennt ein erfahrener Mitarbeiter, ob diese Aufgabe gut erledigt wurde?“ Die Antwort darauf ist Ihr erster Entwurf.
2. Eine Test-Suite: Wo kann es schiefgehen?
Eine Test-Suite ist eine Sammlung von Beispielfällen, die typische und kritische Szenarien abdecken. Sie funktioniert wie eine Fahrprüfung: nicht jede mögliche Verkehrssituation, aber die wichtigsten Fehlermodi.
Sammeln Sie dafür reale Fälle aus Ihrem Tagesgeschäft:
- Standard-Fälle: Die häufigsten 80% der Anfragen, die reibungslos laufen sollten
- Grenzfälle: Ungewöhnliche Anfragen, bei denen erfahrene Mitarbeiter:innen zweimal hinschauen
- Kritische Fälle: Szenarien, in denen ein falsches Ergebnis teuer wird — rechtlich, finanziell oder reputationsbezogen
Eine gute Test-Suite für den Anfang umfasst 30 bis 50 Fälle. Das klingt nach viel Arbeit. Ist es auch. Aber diese Arbeit zahlt sich doppelt aus, weil Sie damit auch die Qualität einfacherer Automatisierungen absichern können.
3. Eine Sandbox-Umgebung: Experimentieren ohne Risiko
Die Sandbox ist ein abgeschirmter Bereich, in dem Ihr Agent arbeiten kann, ohne Produktionsdaten zu verändern oder Kunden zu erreichen. Hier können Sie neue Konfigurationen testen, Prompts optimieren und Fehler analysieren — ohne Konsequenzen.
Ohne Sandbox passiert in der Praxis Folgendes: Teams scheuen sich, Änderungen am Agenten vorzunehmen, weil jede Anpassung ein Produktionsrisiko darstellt. Der Agent bleibt auf dem Stand der Ersteinrichtung, während sich Anforderungen und Daten weiterentwickeln. Die Qualität sinkt schleichend.
Warum diese Infrastruktur systematisch vernachlässigt wird
Eval-Infrastruktur hat ein Sichtbarkeitsproblem. Sie produziert keine beeindruckenden Demos, keine vorzeigbaren Dashboards, keine Zahlen für die Vorstandspräsentation. Was sie produziert, ist Vertrauen — und das lässt sich schlecht in eine PowerPoint-Folie packen.
Die typische Entscheidungssituation sieht so aus: Budget für einen weiteren KI-Agenten, der sofort Tickets bearbeitet, oder Budget für eine Bewertungsinfrastruktur, deren Nutzen sich erst über Monate zeigt? Die meisten Unternehmen wählen den Agenten.
Das ist nachvollziehbar. Und es ist ein Fehler.
Denn ohne Eval-Infrastruktur fehlt Ihnen die Grundlage für jede Optimierung. Sie können nicht feststellen, ob ein neues Modell besser funktioniert als das alte. Sie können nicht erkennen, bei welchen Aufgabentypen Ihr Agent versagt. Sie können nicht belegen, dass Ihre KI-Investition den versprochenen ROI liefert.
Der doppelte ROI: Auch einfache Automatisierungen profitieren
Ein häufiges Gegenargument lautet: „Wir setzen ja gar keine autonomen Agenten ein, wir nutzen KI nur für einfache Aufgaben.“ Doch genau hier liegt der versteckte Vorteil der Eval-Infrastruktur.
Die gleichen Scoring Functions und Test-Suites, die Sie für komplexe Agenten entwickeln, verbessern auch Ihre einfacheren KI-Anwendungen. Ihre Prompt-Templates für die E-Mail-Zusammenfassung? Mit einer Scoring Function erkennen Sie, welche Variante bessere Ergebnisse liefert. Ihr Chatbot für interne FAQs? Mit einer Test-Suite finden Sie die Lücken in seiner Wissensbasis.
Die Investition in Eval-Infrastruktur zahlt sich also auf allen Ebenen aus — vom einfachen Prompt bis zum komplexen Agentensystem.
Konkret: So starten Sie diese Woche
Wenn Sie heute keine Eval-Infrastruktur haben, beginnen Sie nicht mit einem großen Projekt. Beginnen Sie mit einem einzelnen Prozess:
Dieser erste Durchlauf dauert einen halben Tag. Danach haben Sie eine fundierte Grundlage, auf der Sie aufbauen können — und ein klares Bild davon, was Ihr Agent tatsächlich leistet.
Messen kommt vor Automatisieren
Die Versuchung ist groß, direkt mit dem Agenten zu starten, der Aufgaben erledigt und Ergebnisse liefert. Doch ohne die Fähigkeit, diese Ergebnisse systematisch zu bewerten, bauen Sie auf Sand.
Eval-Infrastruktur ist keine technische Spielerei und kein Nice-to-have. Sie ist die Voraussetzung dafür, dass Ihre KI-Investitionen messbar Wert schaffen — und dass Sie das auch belegen können. Identifizieren Sie diese Woche einen Prozess, für den Sie eine erste Scoring Function definieren können. Das ist der wichtigste Schritt auf dem Weg vom KI-Experiment zum verlässlichen KI-Einsatz.
