TRAIL: Trace Redenering en Agent-gebaseerde Probleemlokalisatie
TRAIL: Trace Reasoning and Agentic Issue Localization
May 13, 2025
Auteurs: Darshan Deshpande, Varun Gangal, Hersh Mehta, Jitin Krishnan, Anand Kannappan, Rebecca Qian
cs.AI
Samenvatting
De toenemende adoptie van agent-gebaseerde workflows in diverse domeinen brengt een kritische behoefte met zich mee om de complexe sporen die deze systemen genereren op een schaalbare en systematische manier te evalueren. Huidige evaluatiemethoden zijn afhankelijk van handmatige, domeinspecifieke menselijke analyse van uitgebreide workflowsporen - een aanpak die niet meeschaalt met de groeiende complexiteit en het volume van agent-gebaseerde outputs. Foutanalyse in deze contexten wordt verder bemoeilijkt door de interactie tussen externe tool-outputs en redeneringen van taalmodellen, wat het uitdagender maakt dan traditionele softwaredebugging. In dit werk (1) benadrukken we de noodzaak van robuuste en dynamische evaluatiemethoden voor agent-gebaseerde workflowsporen, (2) introduceren we een formele taxonomie van fouttypes die worden aangetroffen in agent-systemen, en (3) presenteren we een set van 148 grote, door mensen geannoteerde sporen (TRAIL) die zijn opgebouwd met behulp van deze taxonomie en verankerd zijn in gevestigde agent-gebaseerde benchmarks. Om ecologische validiteit te waarborgen, hebben we sporen samengesteld van zowel single- als multi-agent systemen, met een focus op real-world toepassingen zoals software engineering en open-world informatie retrieval. Onze evaluaties laten zien dat moderne lange-context LLMs slecht presteren bij het debuggen van sporen, waarbij het beste Gemini-2.5-pro model slechts 11% scoort op TRAIL. Onze dataset en code zijn publiekelijk beschikbaar gemaakt om toekomstig onderzoek naar schaalbare evaluatie voor agent-gebaseerde workflows te ondersteunen en te versnellen.
English
The increasing adoption of agentic workflows across diverse domains brings a
critical need to scalably and systematically evaluate the complex traces these
systems generate. Current evaluation methods depend on manual, domain-specific
human analysis of lengthy workflow traces - an approach that does not scale
with the growing complexity and volume of agentic outputs. Error analysis in
these settings is further complicated by the interplay of external tool outputs
and language model reasoning, making it more challenging than traditional
software debugging. In this work, we (1) articulate the need for robust and
dynamic evaluation methods for agentic workflow traces, (2) introduce a formal
taxonomy of error types encountered in agentic systems, and (3) present a set
of 148 large human-annotated traces (TRAIL) constructed using this taxonomy and
grounded in established agentic benchmarks. To ensure ecological validity, we
curate traces from both single and multi-agent systems, focusing on real-world
applications such as software engineering and open-world information retrieval.
Our evaluations reveal that modern long context LLMs perform poorly at trace
debugging, with the best Gemini-2.5-pro model scoring a mere 11% on TRAIL. Our
dataset and code are made publicly available to support and accelerate future
research in scalable evaluation for agentic workflows.Summary
AI-Generated Summary