TRAIL: Rastreamento de Raciocínio e Localização de Problemas por Agentes

Resumo

A crescente adoção de fluxos de trabalho agentes em diversos domínios traz uma necessidade crítica de avaliar de forma escalável e sistemática os rastros complexos gerados por esses sistemas. Os métodos atuais de avaliação dependem de análises humanas manuais e específicas do domínio sobre longos rastros de fluxos de trabalho - uma abordagem que não escala com a crescente complexidade e volume de saídas agentes. A análise de erros nesses contextos é ainda mais complicada pela interação entre as saídas de ferramentas externas e o raciocínio dos modelos de linguagem, tornando-a mais desafiadora do que a depuração tradicional de software. Neste trabalho, nós (1) articulamos a necessidade de métodos robustos e dinâmicos para avaliar rastros de fluxos de trabalho agentes, (2) introduzimos uma taxonomia formal dos tipos de erros encontrados em sistemas agentes, e (3) apresentamos um conjunto de 148 rastros anotados manualmente (TRAIL) construídos com base nessa taxonomia e fundamentados em benchmarks agentes estabelecidos. Para garantir validade ecológica, selecionamos rastros de sistemas com agentes únicos e múltiplos, focando em aplicações do mundo real, como engenharia de software e recuperação de informações em ambientes abertos. Nossas avaliações revelam que os modelos de linguagem de contexto longo modernos têm desempenho ruim na depuração de rastros, com o melhor modelo, Gemini-2.5-pro, alcançando apenas 11% no TRAIL. Nosso conjunto de dados e código estão disponíveis publicamente para apoiar e acelerar pesquisas futuras em avaliação escalável de fluxos de trabalho agentes.

English

The increasing adoption of agentic workflows across diverse domains brings a critical need to scalably and systematically evaluate the complex traces these systems generate. Current evaluation methods depend on manual, domain-specific human analysis of lengthy workflow traces - an approach that does not scale with the growing complexity and volume of agentic outputs. Error analysis in these settings is further complicated by the interplay of external tool outputs and language model reasoning, making it more challenging than traditional software debugging. In this work, we (1) articulate the need for robust and dynamic evaluation methods for agentic workflow traces, (2) introduce a formal taxonomy of error types encountered in agentic systems, and (3) present a set of 148 large human-annotated traces (TRAIL) constructed using this taxonomy and grounded in established agentic benchmarks. To ensure ecological validity, we curate traces from both single and multi-agent systems, focusing on real-world applications such as software engineering and open-world information retrieval. Our evaluations reveal that modern long context LLMs perform poorly at trace debugging, with the best Gemini-2.5-pro model scoring a mere 11% on TRAIL. Our dataset and code are made publicly available to support and accelerate future research in scalable evaluation for agentic workflows.

TRAIL: Rastreamento de Raciocínio e Localização de Problemas por Agentes

TRAIL: Trace Reasoning and Agentic Issue Localization

Resumo

Support