Agentic CLEAR: Automatisierung der mehrstufigen Evaluierung von LLM-Agenten

Zusammenfassung

Agentische Systeme werden immer leistungsfähiger: Agenten definieren Strategien, ergreifen Aktionen und interagieren mit verschiedenen Umgebungen. Diese Autonomie stellt erhebliche Herausforderungen für die Überwachung und Bewertung des Agentenverhaltens dar. Die meisten aktuellen Werkzeuge sind begrenzt; sie konzentrieren sich entweder auf Beobachtbarkeit mit grundlegenden Evaluierungsfähigkeiten oder setzen statische, manuell erstellte Fehlertaxonomien voraus, die sich nicht an neue Domänen anpassen lassen. Um diese Lücke zu schließen, stellen wir Agentic CLEAR vor, ein automatisches, dynamisches und benutzerfreundliches Evaluierungsframework. Es liefert textuelle Einblicke in das Agentenverhalten auf drei Granularitätsebenen: System, Trace und Node. Agentic CLEAR arbeitet oberhalb der Beobachtbarkeitsschicht, ermöglicht eine nahtlose Integration und bietet eine intuitive Benutzeroberfläche, die die Agentenevaluierung sehr zugänglich macht. In unseren Experimenten mit vier Benchmarks, sieben agentischen Umgebungen und Zehntausenden von LLM-Aufrufen zeigen wir, dass Agentic CLEAR qualitativ hochwertiges, datengesteuertes und aufschlussreiches Feedback liefert. Unsere Analyse zeigt eine starke Übereinstimmung mit manuell annotierten Fehlern und die Fähigkeit, die Aufgaben-Erfolgsrate vorherzusagen.

English

Agentic systems are becoming more capable: agents define strategies, take actions, and interact with different environments. This autonomy poses serious challenges for overseeing and assessing agent behavior. Most current tools are limited, focusing on observability with basic evaluation capabilities or imposing static, hand-crafted error taxonomies that cannot adapt to new domains. To address this gap, we present Agentic CLEAR, an automatic, dynamic, and easy-to-use evaluation framework. It produces textual insights into the agent behavior on three levels of granularity: system, trace, and node. Agentic CLEAR operates above the observability layer, enabling seamless integration and featuring an intuitive UI that makes agent evaluation highly accessible. In our experiments on four benchmarks, seven agentic settings, and tens of thousands of LLM calls, we show that Agentic CLEAR produces high-quality, data-driven, insightful feedback. Our analysis shows strong alignment with human-annotated errors and the ability to predict task success rate.