GraphTracer: 그래프 기반 실패 추적을 통한 LLM 에이전트의 강건한 다중 턴 심층 탐색
GraphTracer: Graph-Guided Failure Tracing in LLM Agents for Robust Multi-Turn Deep Search
October 12, 2025
저자: Heng Zhang, Yuling Shi, Xiaodong Gu, Haochen You, Zijian Zhang, Lubin Gan, Yilei Yuan, Jin Huang
cs.AI
초록
대규모 언어 모델(Large Language Models) 기반의 다중 에이전트 시스템은 조율된 협업을 통해 복잡한 작업에서 뛰어난 성능을 보이지만, 다중 턴 심층 탐색 시나리오에서는 높은 실패율을 보입니다. 기존의 시간적 귀인(temporal attribution) 방법들은 특히 여러 에이전트에 걸쳐 오류가 전파되는 경우 근본 원인을 정확히 진단하는 데 어려움을 겪습니다. 행동 시퀀스를 분석하여 실패 귀인을 자동화하려는 시도는 에이전트 간 정보 의존성을 고려하지 못해 여전히 효과적이지 못합니다. 본 논문은 두 가지 핵심 문제를 제시합니다: (i) 다중 에이전트 오류 전파에서 증상과 근본 원인을 구분하는 것, (ii) 시간적 순서를 넘어 정보 의존성을 추적하는 것. 이러한 문제를 해결하기 위해, 우리는 정보 흐름 분석을 통해 실패 귀인을 재정의하는 GraphTracer 프레임워크를 소개합니다. GraphTracer는 정보 의존성 그래프(Information Dependency Graphs, IDGs)를 구성하여 에이전트가 이전 출력을 참조하고 이를 기반으로 어떻게 작동하는지를 명시적으로 포착합니다. 이 프레임워크는 시간적 시퀀스에 의존하는 대신 이러한 의존성 구조를 추적함으로써 근본 원인을 특정합니다. 또한 GraphTracer는 그래프 인식 합성 데이터 생성(graph-aware synthetic data generation)을 사용해 중요한 노드를 대상으로 현실적인 실패 시나리오를 생성합니다. Who\&When 벤치마크에서의 평가와 실제 시스템 통합 결과, GraphTracer-8B는 최신 모델 대비 최대 18.18% 더 높은 귀인 정확도를 달성했으며, 배포된 다중 에이전트 프레임워크에서 4.8%에서 14.2%의 성능 향상을 가능하게 하여 다중 에이전트 시스템 디버깅을 위한 강력한 솔루션을 입증했습니다.
English
Multi-agent systems powered by Large Language Models excel at complex tasks
through coordinated collaboration, yet they face high failure rates in
multi-turn deep search scenarios. Existing temporal attribution methods
struggle to accurately diagnose root causes, particularly when errors propagate
across multiple agents. Attempts to automate failure attribution by analyzing
action sequences remain ineffective due to their inability to account for
information dependencies that span agents. This paper identifies two core
challenges: (i) distinguishing symptoms from root causes in multi-agent
error propagation, and (ii) tracing information dependencies beyond
temporal order. To address these issues, we introduce GraphTracer, a
framework that redefines failure attribution through information flow analysis.
GraphTracer constructs Information Dependency Graphs (IDGs) to explicitly
capture how agents reference and build on prior outputs. It localizes root
causes by tracing through these dependency structures instead of relying on
temporal sequences. GraphTracer also uses graph-aware synthetic data generation
to target critical nodes, creating realistic failure scenarios. Evaluations on
the Who\&When benchmark and integration into production systems demonstrate
that GraphTracer-8B achieves up to 18.18\% higher attribution accuracy compared
to state-of-the-art models and enables 4.8\% to 14.2\% performance improvements
in deployed multi-agent frameworks, establishing a robust solution for
multi-agent system debugging.