GraphTracer: Rastreo Guiado por Grafos de Fallos en Agentes de LLM para una Búsqueda Profunda Robusta en Múltiples Turnos
GraphTracer: Graph-Guided Failure Tracing in LLM Agents for Robust Multi-Turn Deep Search
October 12, 2025
Autores: Heng Zhang, Yuling Shi, Xiaodong Gu, Haochen You, Zijian Zhang, Lubin Gan, Yilei Yuan, Jin Huang
cs.AI
Resumen
Los sistemas multiagente impulsados por modelos de lenguaje de gran escala destacan en tareas complejas mediante la colaboración coordinada, pero enfrentan altas tasas de fallos en escenarios de búsqueda profunda de múltiples turnos. Los métodos existentes de atribución temporal tienen dificultades para diagnosticar con precisión las causas raíz, especialmente cuando los errores se propagan a través de múltiples agentes. Los intentos de automatizar la atribución de fallos mediante el análisis de secuencias de acciones siguen siendo ineficaces debido a su incapacidad para considerar las dependencias de información que abarcan a varios agentes. Este artículo identifica dos desafíos principales: (i) distinguir los síntomas de las causas raíz en la propagación de errores multiagente, y (ii) rastrear las dependencias de información más allá del orden temporal. Para abordar estos problemas, presentamos GraphTracer, un marco que redefine la atribución de fallos mediante el análisis de flujos de información. GraphTracer construye Grafos de Dependencia de Información (IDGs) para capturar explícitamente cómo los agentes hacen referencia y se basan en salidas previas. Localiza las causas raíz al rastrear estas estructuras de dependencia en lugar de depender de secuencias temporales. GraphTracer también utiliza la generación de datos sintéticos consciente del grafo para apuntar a nodos críticos, creando escenarios de fallos realistas. Las evaluaciones en el benchmark Who\&When y la integración en sistemas de producción demuestran que GraphTracer-8B logra hasta un 18.18\% más de precisión en la atribución en comparación con los modelos más avanzados y permite mejoras de rendimiento del 4.8\% al 14.2\% en marcos multiagente implementados, estableciendo una solución robusta para la depuración de sistemas multiagente.
English
Multi-agent systems powered by Large Language Models excel at complex tasks
through coordinated collaboration, yet they face high failure rates in
multi-turn deep search scenarios. Existing temporal attribution methods
struggle to accurately diagnose root causes, particularly when errors propagate
across multiple agents. Attempts to automate failure attribution by analyzing
action sequences remain ineffective due to their inability to account for
information dependencies that span agents. This paper identifies two core
challenges: (i) distinguishing symptoms from root causes in multi-agent
error propagation, and (ii) tracing information dependencies beyond
temporal order. To address these issues, we introduce GraphTracer, a
framework that redefines failure attribution through information flow analysis.
GraphTracer constructs Information Dependency Graphs (IDGs) to explicitly
capture how agents reference and build on prior outputs. It localizes root
causes by tracing through these dependency structures instead of relying on
temporal sequences. GraphTracer also uses graph-aware synthetic data generation
to target critical nodes, creating realistic failure scenarios. Evaluations on
the Who\&When benchmark and integration into production systems demonstrate
that GraphTracer-8B achieves up to 18.18\% higher attribution accuracy compared
to state-of-the-art models and enables 4.8\% to 14.2\% performance improvements
in deployed multi-agent frameworks, establishing a robust solution for
multi-agent system debugging.