TRAIL : Raisonnement par Traces et Localisation Agentique des Problèmes
TRAIL: Trace Reasoning and Agentic Issue Localization
May 13, 2025
papers.authors: Darshan Deshpande, Varun Gangal, Hersh Mehta, Jitin Krishnan, Anand Kannappan, Rebecca Qian
cs.AI
papers.abstract
L'adoption croissante des workflows agentiques dans divers domaines soulève un besoin critique d'évaluer de manière scalable et systématique les traces complexes générées par ces systèmes. Les méthodes d'évaluation actuelles reposent sur une analyse humaine manuelle et spécifique au domaine de traces de workflows souvent longues - une approche qui ne s'adapte pas à la complexité et au volume croissants des sorties agentiques. L'analyse des erreurs dans ces contextes est encore compliquée par l'interaction entre les sorties d'outils externes et le raisonnement des modèles de langage, rendant cette tâche plus difficile que le débogage logiciel traditionnel. Dans ce travail, nous (1) exposons la nécessité de méthodes d'évaluation robustes et dynamiques pour les traces de workflows agentiques, (2) introduisons une taxonomie formelle des types d'erreurs rencontrées dans les systèmes agentiques, et (3) présentons un ensemble de 148 traces annotées manuellement (TRAIL) construites à l'aide de cette taxonomie et ancrées dans des benchmarks agentiques établis. Pour garantir la validité écologique, nous avons sélectionné des traces provenant de systèmes mono-agent et multi-agents, en nous concentrant sur des applications réelles telles que l'ingénierie logicielle et la recherche d'information en monde ouvert. Nos évaluations révèlent que les modèles de langage à contexte long modernes obtiennent de faibles performances en débogage de traces, avec le meilleur modèle Gemini-2.5-pro atteignant seulement 11% sur TRAIL. Notre jeu de données et notre code sont rendus publics pour soutenir et accélérer les recherches futures sur l'évaluation scalable des workflows agentiques.
English
The increasing adoption of agentic workflows across diverse domains brings a
critical need to scalably and systematically evaluate the complex traces these
systems generate. Current evaluation methods depend on manual, domain-specific
human analysis of lengthy workflow traces - an approach that does not scale
with the growing complexity and volume of agentic outputs. Error analysis in
these settings is further complicated by the interplay of external tool outputs
and language model reasoning, making it more challenging than traditional
software debugging. In this work, we (1) articulate the need for robust and
dynamic evaluation methods for agentic workflow traces, (2) introduce a formal
taxonomy of error types encountered in agentic systems, and (3) present a set
of 148 large human-annotated traces (TRAIL) constructed using this taxonomy and
grounded in established agentic benchmarks. To ensure ecological validity, we
curate traces from both single and multi-agent systems, focusing on real-world
applications such as software engineering and open-world information retrieval.
Our evaluations reveal that modern long context LLMs perform poorly at trace
debugging, with the best Gemini-2.5-pro model scoring a mere 11% on TRAIL. Our
dataset and code are made publicly available to support and accelerate future
research in scalable evaluation for agentic workflows.