TRAIL: Rastreamento de Raciocínio e Localização de Problemas por Agentes
TRAIL: Trace Reasoning and Agentic Issue Localization
May 13, 2025
Autores: Darshan Deshpande, Varun Gangal, Hersh Mehta, Jitin Krishnan, Anand Kannappan, Rebecca Qian
cs.AI
Resumo
A crescente adoção de fluxos de trabalho agentes em diversos domínios traz uma necessidade crítica de avaliar de forma escalável e sistemática os rastros complexos gerados por esses sistemas. Os métodos atuais de avaliação dependem de análises humanas manuais e específicas do domínio sobre longos rastros de fluxos de trabalho - uma abordagem que não escala com a crescente complexidade e volume de saídas agentes. A análise de erros nesses contextos é ainda mais complicada pela interação entre as saídas de ferramentas externas e o raciocínio dos modelos de linguagem, tornando-a mais desafiadora do que a depuração tradicional de software. Neste trabalho, nós (1) articulamos a necessidade de métodos robustos e dinâmicos para avaliar rastros de fluxos de trabalho agentes, (2) introduzimos uma taxonomia formal dos tipos de erros encontrados em sistemas agentes, e (3) apresentamos um conjunto de 148 rastros anotados manualmente (TRAIL) construídos com base nessa taxonomia e fundamentados em benchmarks agentes estabelecidos. Para garantir validade ecológica, selecionamos rastros de sistemas com agentes únicos e múltiplos, focando em aplicações do mundo real, como engenharia de software e recuperação de informações em ambientes abertos. Nossas avaliações revelam que os modelos de linguagem de contexto longo modernos têm desempenho ruim na depuração de rastros, com o melhor modelo, Gemini-2.5-pro, alcançando apenas 11% no TRAIL. Nosso conjunto de dados e código estão disponíveis publicamente para apoiar e acelerar pesquisas futuras em avaliação escalável de fluxos de trabalho agentes.
English
The increasing adoption of agentic workflows across diverse domains brings a
critical need to scalably and systematically evaluate the complex traces these
systems generate. Current evaluation methods depend on manual, domain-specific
human analysis of lengthy workflow traces - an approach that does not scale
with the growing complexity and volume of agentic outputs. Error analysis in
these settings is further complicated by the interplay of external tool outputs
and language model reasoning, making it more challenging than traditional
software debugging. In this work, we (1) articulate the need for robust and
dynamic evaluation methods for agentic workflow traces, (2) introduce a formal
taxonomy of error types encountered in agentic systems, and (3) present a set
of 148 large human-annotated traces (TRAIL) constructed using this taxonomy and
grounded in established agentic benchmarks. To ensure ecological validity, we
curate traces from both single and multi-agent systems, focusing on real-world
applications such as software engineering and open-world information retrieval.
Our evaluations reveal that modern long context LLMs perform poorly at trace
debugging, with the best Gemini-2.5-pro model scoring a mere 11% on TRAIL. Our
dataset and code are made publicly available to support and accelerate future
research in scalable evaluation for agentic workflows.