TRAIL: Trace Redenering en Agent-gebaseerde Probleemlokalisatie

Samenvatting

De toenemende adoptie van agent-gebaseerde workflows in diverse domeinen brengt een kritische behoefte met zich mee om de complexe sporen die deze systemen genereren op een schaalbare en systematische manier te evalueren. Huidige evaluatiemethoden zijn afhankelijk van handmatige, domeinspecifieke menselijke analyse van uitgebreide workflowsporen - een aanpak die niet meeschaalt met de groeiende complexiteit en het volume van agent-gebaseerde outputs. Foutanalyse in deze contexten wordt verder bemoeilijkt door de interactie tussen externe tool-outputs en redeneringen van taalmodellen, wat het uitdagender maakt dan traditionele softwaredebugging. In dit werk (1) benadrukken we de noodzaak van robuuste en dynamische evaluatiemethoden voor agent-gebaseerde workflowsporen, (2) introduceren we een formele taxonomie van fouttypes die worden aangetroffen in agent-systemen, en (3) presenteren we een set van 148 grote, door mensen geannoteerde sporen (TRAIL) die zijn opgebouwd met behulp van deze taxonomie en verankerd zijn in gevestigde agent-gebaseerde benchmarks. Om ecologische validiteit te waarborgen, hebben we sporen samengesteld van zowel single- als multi-agent systemen, met een focus op real-world toepassingen zoals software engineering en open-world informatie retrieval. Onze evaluaties laten zien dat moderne lange-context LLMs slecht presteren bij het debuggen van sporen, waarbij het beste Gemini-2.5-pro model slechts 11% scoort op TRAIL. Onze dataset en code zijn publiekelijk beschikbaar gemaakt om toekomstig onderzoek naar schaalbare evaluatie voor agent-gebaseerde workflows te ondersteunen en te versnellen.

English

The increasing adoption of agentic workflows across diverse domains brings a critical need to scalably and systematically evaluate the complex traces these systems generate. Current evaluation methods depend on manual, domain-specific human analysis of lengthy workflow traces - an approach that does not scale with the growing complexity and volume of agentic outputs. Error analysis in these settings is further complicated by the interplay of external tool outputs and language model reasoning, making it more challenging than traditional software debugging. In this work, we (1) articulate the need for robust and dynamic evaluation methods for agentic workflow traces, (2) introduce a formal taxonomy of error types encountered in agentic systems, and (3) present a set of 148 large human-annotated traces (TRAIL) constructed using this taxonomy and grounded in established agentic benchmarks. To ensure ecological validity, we curate traces from both single and multi-agent systems, focusing on real-world applications such as software engineering and open-world information retrieval. Our evaluations reveal that modern long context LLMs perform poorly at trace debugging, with the best Gemini-2.5-pro model scoring a mere 11% on TRAIL. Our dataset and code are made publicly available to support and accelerate future research in scalable evaluation for agentic workflows.

TRAIL: Trace Redenering en Agent-gebaseerde Probleemlokalisatie

TRAIL: Trace Reasoning and Agentic Issue Localization

Samenvatting

Summary

Support

Support