Auf dem Weg zu einer Wissenschaft der KI-Agenten-Zuverlässigkeit

Zusammenfassung

KI-Agenten werden zunehmend für die Ausführung wichtiger Aufgaben eingesetzt. Während steigende Genauigkeitswerte in Standard-Benchmarks auf rasante Fortschritte hindeuten, scheitern viele Agenten in der Praxis nach wie vor. Diese Diskrepanz verdeutlicht eine grundlegende Einschränkung aktueller Evaluierungen: Das Komprimieren des Agentenverhaltens in eine einzige Erfolgskennzahl verschleiert kritische operative Mängel. Insbesondere wird ignoriert, ob Agenten konsistent über mehrere Durchläufe hinweg agieren, Störungen standhalten, vorhersagbar scheitern oder begrenzte Fehlerschwere aufweisen. Basierend auf Prinzipien der sicherheitskritischen Technik liefern wir ein ganzheitliches Leistungsprofil, indem wir zwölf konkrete Metriken vorschlagen, die die Zuverlässigkeit von Agenten entlang vier Schlüsseldimensionen aufschlüsseln: Konsistenz, Robustheit, Vorhersagbarkeit und Sicherheit. Durch die Evaluierung von 14 agentenbasierten Modellen mit zwei komplementären Benchmarks stellen wir fest, dass jüngste Fähigkeitsgewinne nur zu geringen Verbesserungen der Zuverlässigkeit führten. Indem wir diese beständigen Limitationen aufdecken, ergänzen unsere Metriken traditionelle Evaluierungen und bieten gleichzeitig Werkzeuge, um zu verstehen, wie Agenten funktionieren, sich verschlechtern und versagen.

English

AI agents are increasingly deployed to execute important tasks. While rising accuracy scores on standard benchmarks suggest rapid progress, many agents still continue to fail in practice. This discrepancy highlights a fundamental limitation of current evaluations: compressing agent behavior into a single success metric obscures critical operational flaws. Notably, it ignores whether agents behave consistently across runs, withstand perturbations, fail predictably, or have bounded error severity. Grounded in safety-critical engineering, we provide a holistic performance profile by proposing twelve concrete metrics that decompose agent reliability along four key dimensions: consistency, robustness, predictability, and safety. Evaluating 14 agentic models across two complementary benchmarks, we find that recent capability gains have only yielded small improvements in reliability. By exposing these persistent limitations, our metrics complement traditional evaluations while offering tools for reasoning about how agents perform, degrade, and fail.

Auf dem Weg zu einer Wissenschaft der KI-Agenten-Zuverlässigkeit

Towards a Science of AI Agent Reliability

Zusammenfassung

Support