TRAIL: Trace Reasoning und Agentic Issue Localization
TRAIL: Trace Reasoning and Agentic Issue Localization
May 13, 2025
Autoren: Darshan Deshpande, Varun Gangal, Hersh Mehta, Jitin Krishnan, Anand Kannappan, Rebecca Qian
cs.AI
Zusammenfassung
Die zunehmende Verbreitung agentenbasierter Workflows in verschiedenen Domänen führt zu einem dringenden Bedarf an skalierbaren und systematischen Methoden zur Bewertung der komplexen Spuren, die diese Systeme erzeugen. Aktuelle Evaluierungsmethoden basieren auf manuellen, domänenspezifischen Analysen durch Menschen von umfangreichen Workflow-Spuren – ein Ansatz, der mit der wachsenden Komplexität und dem zunehmenden Volumen agentenbasierter Ausgaben nicht skaliert. Die Fehleranalyse wird in diesen Kontexten zusätzlich durch das Zusammenspiel von externen Werkzeugausgaben und der Argumentation von Sprachmodellen erschwert, was sie anspruchsvoller macht als das traditionelle Debugging von Software. In dieser Arbeit (1) formulieren wir die Notwendigkeit robuster und dynamischer Evaluierungsmethoden für agentenbasierte Workflow-Spuren, (2) führen eine formale Taxonomie der in agentenbasierten Systemen auftretenden Fehlertypen ein und (3) präsentieren einen Satz von 148 umfangreichen, menschlich annotierten Spuren (TRAIL), die unter Verwendung dieser Taxonomie erstellt und in etablierten agentenbasierten Benchmarks verankert sind. Um die ökologische Validität zu gewährleisten, kuratieren wir Spuren sowohl von Einzel- als auch von Multi-Agenten-Systemen, wobei wir uns auf reale Anwendungen wie Softwareentwicklung und Open-World-Informationsabfrage konzentrieren. Unsere Auswertungen zeigen, dass moderne Langkontext-LLMs beim Debugging von Spuren schlecht abschneiden, wobei das beste Gemini-2.5-pro-Modell lediglich 11 % auf TRAIL erreicht. Unser Datensatz und unser Code sind öffentlich verfügbar, um zukünftige Forschungen zur skalierbaren Evaluierung agentenbasierter Workflows zu unterstützen und zu beschleunigen.
English
The increasing adoption of agentic workflows across diverse domains brings a
critical need to scalably and systematically evaluate the complex traces these
systems generate. Current evaluation methods depend on manual, domain-specific
human analysis of lengthy workflow traces - an approach that does not scale
with the growing complexity and volume of agentic outputs. Error analysis in
these settings is further complicated by the interplay of external tool outputs
and language model reasoning, making it more challenging than traditional
software debugging. In this work, we (1) articulate the need for robust and
dynamic evaluation methods for agentic workflow traces, (2) introduce a formal
taxonomy of error types encountered in agentic systems, and (3) present a set
of 148 large human-annotated traces (TRAIL) constructed using this taxonomy and
grounded in established agentic benchmarks. To ensure ecological validity, we
curate traces from both single and multi-agent systems, focusing on real-world
applications such as software engineering and open-world information retrieval.
Our evaluations reveal that modern long context LLMs perform poorly at trace
debugging, with the best Gemini-2.5-pro model scoring a mere 11% on TRAIL. Our
dataset and code are made publicly available to support and accelerate future
research in scalable evaluation for agentic workflows.Summary
AI-Generated Summary