GraphTracer: Tracciamento degli Errori Guidato da Grafi negli Agenti LLM per una Ricerca Profonda Robusta su Più Turni
GraphTracer: Graph-Guided Failure Tracing in LLM Agents for Robust Multi-Turn Deep Search
October 12, 2025
Autori: Heng Zhang, Yuling Shi, Xiaodong Gu, Haochen You, Zijian Zhang, Lubin Gan, Yilei Yuan, Jin Huang
cs.AI
Abstract
I sistemi multi-agente alimentati da Large Language Models eccellono in compiti complessi attraverso una collaborazione coordinata, ma presentano alti tassi di fallimento negli scenari di ricerca profonda multi-turn. I metodi esistenti di attribuzione temporale faticano a diagnosticare con precisione le cause profonde, specialmente quando gli errori si propagano attraverso più agenti. I tentativi di automatizzare l'attribuzione dei fallimenti analizzando le sequenze di azioni rimangono inefficaci a causa della loro incapacità di tenere conto delle dipendenze informative che si estendono tra gli agenti. Questo articolo identifica due sfide fondamentali: (i) distinguere i sintomi dalle cause profonde nella propagazione degli errori multi-agente, e (ii) tracciare le dipendenze informative oltre l'ordine temporale. Per affrontare questi problemi, introduciamo GraphTracer, un framework che ridefinisce l'attribuzione dei fallimenti attraverso l'analisi del flusso di informazioni. GraphTracer costruisce Grafi di Dipendenza Informatica (IDG) per catturare esplicitamente come gli agenti fanno riferimento e si basano su output precedenti. Localizza le cause profonde tracciando queste strutture di dipendenza invece di affidarsi a sequenze temporali. GraphTracer utilizza anche la generazione di dati sintetici consapevole del grafo per individuare nodi critici, creando scenari di fallimento realistici. Le valutazioni sul benchmark Who\&When e l'integrazione nei sistemi di produzione dimostrano che GraphTracer-8B raggiunge un'accuratezza di attribuzione fino al 18,18\% superiore rispetto ai modelli all'avanguardia e consente miglioramenti delle prestazioni dal 4,8\% al 14,2\% nei framework multi-agente implementati, stabilendo una soluzione robusta per il debug dei sistemi multi-agente.
English
Multi-agent systems powered by Large Language Models excel at complex tasks
through coordinated collaboration, yet they face high failure rates in
multi-turn deep search scenarios. Existing temporal attribution methods
struggle to accurately diagnose root causes, particularly when errors propagate
across multiple agents. Attempts to automate failure attribution by analyzing
action sequences remain ineffective due to their inability to account for
information dependencies that span agents. This paper identifies two core
challenges: (i) distinguishing symptoms from root causes in multi-agent
error propagation, and (ii) tracing information dependencies beyond
temporal order. To address these issues, we introduce GraphTracer, a
framework that redefines failure attribution through information flow analysis.
GraphTracer constructs Information Dependency Graphs (IDGs) to explicitly
capture how agents reference and build on prior outputs. It localizes root
causes by tracing through these dependency structures instead of relying on
temporal sequences. GraphTracer also uses graph-aware synthetic data generation
to target critical nodes, creating realistic failure scenarios. Evaluations on
the Who\&When benchmark and integration into production systems demonstrate
that GraphTracer-8B achieves up to 18.18\% higher attribution accuracy compared
to state-of-the-art models and enables 4.8\% to 14.2\% performance improvements
in deployed multi-agent frameworks, establishing a robust solution for
multi-agent system debugging.