TRAIL: Rastreo de Razonamiento y Localización de Problemas Agentes
TRAIL: Trace Reasoning and Agentic Issue Localization
May 13, 2025
Autores: Darshan Deshpande, Varun Gangal, Hersh Mehta, Jitin Krishnan, Anand Kannappan, Rebecca Qian
cs.AI
Resumen
La creciente adopción de flujos de trabajo agentivos en diversos dominios genera una necesidad crítica de evaluar de manera escalable y sistemática las trazas complejas que estos sistemas producen. Los métodos de evaluación actuales dependen del análisis manual y específico del dominio realizado por humanos sobre trazas extensas de flujos de trabajo, un enfoque que no escala con la creciente complejidad y volumen de los resultados agentivos. El análisis de errores en estos contextos se complica aún más por la interacción entre los resultados de herramientas externas y el razonamiento de los modelos de lenguaje, lo que lo hace más desafiante que la depuración tradicional de software. En este trabajo, (1) planteamos la necesidad de métodos de evaluación robustos y dinámicos para las trazas de flujos de trabajo agentivos, (2) introducimos una taxonomía formal de los tipos de errores encontrados en sistemas agentivos y (3) presentamos un conjunto de 148 trazas anotadas manualmente (TRAIL) construidas utilizando esta taxonomía y basadas en benchmarks agentivos establecidos. Para garantizar la validez ecológica, seleccionamos trazas de sistemas tanto de un solo agente como de múltiples agentes, centrándonos en aplicaciones del mundo real como la ingeniería de software y la recuperación de información en entornos abiertos. Nuestras evaluaciones revelan que los modelos de lenguaje de contexto largo (LLM) modernos tienen un desempeño deficiente en la depuración de trazas, con el mejor modelo, Gemini-2.5-pro, obteniendo apenas un 11% en TRAIL. Nuestro conjunto de datos y código están disponibles públicamente para apoyar y acelerar futuras investigaciones en la evaluación escalable de flujos de trabajo agentivos.
English
The increasing adoption of agentic workflows across diverse domains brings a
critical need to scalably and systematically evaluate the complex traces these
systems generate. Current evaluation methods depend on manual, domain-specific
human analysis of lengthy workflow traces - an approach that does not scale
with the growing complexity and volume of agentic outputs. Error analysis in
these settings is further complicated by the interplay of external tool outputs
and language model reasoning, making it more challenging than traditional
software debugging. In this work, we (1) articulate the need for robust and
dynamic evaluation methods for agentic workflow traces, (2) introduce a formal
taxonomy of error types encountered in agentic systems, and (3) present a set
of 148 large human-annotated traces (TRAIL) constructed using this taxonomy and
grounded in established agentic benchmarks. To ensure ecological validity, we
curate traces from both single and multi-agent systems, focusing on real-world
applications such as software engineering and open-world information retrieval.
Our evaluations reveal that modern long context LLMs perform poorly at trace
debugging, with the best Gemini-2.5-pro model scoring a mere 11% on TRAIL. Our
dataset and code are made publicly available to support and accelerate future
research in scalable evaluation for agentic workflows.