GraphTracer: Graph-gestützte Fehlerverfolgung in LLM-Agenten für robuste mehrstufige Tiefensuche

papers.abstract

Multi-Agent-Systeme, die von Large Language Models angetrieben werden, zeichnen sich durch koordinierte Zusammenarbeit bei komplexen Aufgaben aus, weisen jedoch hohe Fehlerquoten in Szenarien mit mehrstufiger Tiefensuche auf. Bestehende Methoden zur zeitlichen Fehlerattribution sind nicht in der Lage, die Ursachen präzise zu diagnostizieren, insbesondere wenn sich Fehler über mehrere Agenten hinweg ausbreiten. Versuche, die Fehlerattribution durch die Analyse von Aktionssequenzen zu automatisieren, bleiben aufgrund ihrer Unfähigkeit, informationsübergreifende Abhängigkeiten zu berücksichtigen, unwirksam. Dieses Papier identifiziert zwei zentrale Herausforderungen: (i) die Unterscheidung von Symptomen und Ursachen bei der Fehlerausbreitung in Multi-Agent-Systemen und (ii) die Nachverfolgung von Informationsabhängigkeiten über die zeitliche Reihenfolge hinaus. Um diese Probleme zu lösen, stellen wir GraphTracer vor, ein Framework, das die Fehlerattribution durch die Analyse von Informationsflüssen neu definiert. GraphTracer konstruiert Informationsabhängigkeitsgraphen (IDGs), um explizit zu erfassen, wie Agenten auf vorherige Ausgaben verweisen und darauf aufbauen. Es lokalisiert Ursachen, indem es diese Abhängigkeitsstrukturen nachverfolgt, anstatt sich auf zeitliche Sequenzen zu verlassen. GraphTracer nutzt zudem graphenbasierte synthetische Datengenerierung, um kritische Knotenpunkte zu adressieren und realistische Fehlerszenarien zu erzeugen. Evaluierungen auf dem Who\&When-Benchmark und die Integration in Produktionssysteme zeigen, dass GraphTracer-8B eine bis zu 18,18\% höhere Attributionsgenauigkeit im Vergleich zu modernsten Modellen erreicht und Leistungssteigerungen von 4,8\% bis 14,2\% in eingesetzten Multi-Agent-Frameworks ermöglicht. Damit etabliert es eine robuste Lösung für das Debugging von Multi-Agent-Systemen.

English

Multi-agent systems powered by Large Language Models excel at complex tasks through coordinated collaboration, yet they face high failure rates in multi-turn deep search scenarios. Existing temporal attribution methods struggle to accurately diagnose root causes, particularly when errors propagate across multiple agents. Attempts to automate failure attribution by analyzing action sequences remain ineffective due to their inability to account for information dependencies that span agents. This paper identifies two core challenges: (i) distinguishing symptoms from root causes in multi-agent error propagation, and (ii) tracing information dependencies beyond temporal order. To address these issues, we introduce GraphTracer, a framework that redefines failure attribution through information flow analysis. GraphTracer constructs Information Dependency Graphs (IDGs) to explicitly capture how agents reference and build on prior outputs. It localizes root causes by tracing through these dependency structures instead of relying on temporal sequences. GraphTracer also uses graph-aware synthetic data generation to target critical nodes, creating realistic failure scenarios. Evaluations on the Who\&When benchmark and integration into production systems demonstrate that GraphTracer-8B achieves up to 18.18\% higher attribution accuracy compared to state-of-the-art models and enables 4.8\% to 14.2\% performance improvements in deployed multi-agent frameworks, establishing a robust solution for multi-agent system debugging.

GraphTracer: Graph-gestützte Fehlerverfolgung in LLM-Agenten für robuste mehrstufige Tiefensuche

GraphTracer: Graph-Guided Failure Tracing in LLM Agents for Robust Multi-Turn Deep Search

papers.abstract

Support