TRAIL: Ragionamento Tracciabile e Localizzazione Agente dei Problemi

Abstract

La crescente adozione di flussi di lavoro agentici in diversi ambiti evidenzia la necessità critica di valutare in modo scalabile e sistematico le tracce complesse generate da questi sistemi. I metodi di valutazione attuali si basano su analisi manuali e specifiche per dominio di tracce di flusso di lavoro estese - un approccio che non scala con la crescente complessità e volume degli output agentici. L'analisi degli errori in questi contesti è ulteriormente complicata dall'interazione tra gli output di strumenti esterni e il ragionamento dei modelli linguistici, rendendola più impegnativa rispetto al debug tradizionale del software. In questo lavoro, (1) evidenziamo la necessità di metodi di valutazione robusti e dinamici per le tracce di flusso di lavoro agentiche, (2) introduciamo una tassonomia formale dei tipi di errore riscontrati nei sistemi agentici, e (3) presentiamo un set di 148 tracce annotate manualmente (TRAIL) costruite utilizzando questa tassonomia e basate su benchmark agentici consolidati. Per garantire la validità ecologica, abbiamo selezionato tracce provenienti sia da sistemi a singolo agente che multi-agente, concentrandoci su applicazioni reali come l'ingegneria del software e il recupero di informazioni in contesti aperti. Le nostre valutazioni rivelano che i moderni modelli linguistici a contesto lungo (LLM) hanno prestazioni scarse nel debug delle tracce, con il miglior modello Gemini-2.5-pro che raggiunge appena l'11% su TRAIL. Il nostro dataset e il codice sono resi pubblicamente disponibili per supportare e accelerare la ricerca futura nella valutazione scalabile dei flussi di lavoro agentici.

English

The increasing adoption of agentic workflows across diverse domains brings a critical need to scalably and systematically evaluate the complex traces these systems generate. Current evaluation methods depend on manual, domain-specific human analysis of lengthy workflow traces - an approach that does not scale with the growing complexity and volume of agentic outputs. Error analysis in these settings is further complicated by the interplay of external tool outputs and language model reasoning, making it more challenging than traditional software debugging. In this work, we (1) articulate the need for robust and dynamic evaluation methods for agentic workflow traces, (2) introduce a formal taxonomy of error types encountered in agentic systems, and (3) present a set of 148 large human-annotated traces (TRAIL) constructed using this taxonomy and grounded in established agentic benchmarks. To ensure ecological validity, we curate traces from both single and multi-agent systems, focusing on real-world applications such as software engineering and open-world information retrieval. Our evaluations reveal that modern long context LLMs perform poorly at trace debugging, with the best Gemini-2.5-pro model scoring a mere 11% on TRAIL. Our dataset and code are made publicly available to support and accelerate future research in scalable evaluation for agentic workflows.

TRAIL: Ragionamento Tracciabile e Localizzazione Agente dei Problemi

TRAIL: Trace Reasoning and Agentic Issue Localization

Abstract

Support