TRAIL : Raisonnement par Traces et Localisation Agentique des Problèmes

papers.abstract

L'adoption croissante des workflows agentiques dans divers domaines soulève un besoin critique d'évaluer de manière scalable et systématique les traces complexes générées par ces systèmes. Les méthodes d'évaluation actuelles reposent sur une analyse humaine manuelle et spécifique au domaine de traces de workflows souvent longues - une approche qui ne s'adapte pas à la complexité et au volume croissants des sorties agentiques. L'analyse des erreurs dans ces contextes est encore compliquée par l'interaction entre les sorties d'outils externes et le raisonnement des modèles de langage, rendant cette tâche plus difficile que le débogage logiciel traditionnel. Dans ce travail, nous (1) exposons la nécessité de méthodes d'évaluation robustes et dynamiques pour les traces de workflows agentiques, (2) introduisons une taxonomie formelle des types d'erreurs rencontrées dans les systèmes agentiques, et (3) présentons un ensemble de 148 traces annotées manuellement (TRAIL) construites à l'aide de cette taxonomie et ancrées dans des benchmarks agentiques établis. Pour garantir la validité écologique, nous avons sélectionné des traces provenant de systèmes mono-agent et multi-agents, en nous concentrant sur des applications réelles telles que l'ingénierie logicielle et la recherche d'information en monde ouvert. Nos évaluations révèlent que les modèles de langage à contexte long modernes obtiennent de faibles performances en débogage de traces, avec le meilleur modèle Gemini-2.5-pro atteignant seulement 11% sur TRAIL. Notre jeu de données et notre code sont rendus publics pour soutenir et accélérer les recherches futures sur l'évaluation scalable des workflows agentiques.

English

The increasing adoption of agentic workflows across diverse domains brings a critical need to scalably and systematically evaluate the complex traces these systems generate. Current evaluation methods depend on manual, domain-specific human analysis of lengthy workflow traces - an approach that does not scale with the growing complexity and volume of agentic outputs. Error analysis in these settings is further complicated by the interplay of external tool outputs and language model reasoning, making it more challenging than traditional software debugging. In this work, we (1) articulate the need for robust and dynamic evaluation methods for agentic workflow traces, (2) introduce a formal taxonomy of error types encountered in agentic systems, and (3) present a set of 148 large human-annotated traces (TRAIL) constructed using this taxonomy and grounded in established agentic benchmarks. To ensure ecological validity, we curate traces from both single and multi-agent systems, focusing on real-world applications such as software engineering and open-world information retrieval. Our evaluations reveal that modern long context LLMs perform poorly at trace debugging, with the best Gemini-2.5-pro model scoring a mere 11% on TRAIL. Our dataset and code are made publicly available to support and accelerate future research in scalable evaluation for agentic workflows.

TRAIL : Raisonnement par Traces et Localisation Agentique des Problèmes

TRAIL: Trace Reasoning and Agentic Issue Localization

papers.abstract

Support