**DoVer: 대규모 언어 모델 다중 에이전트 시스템을 위한 인터벤션 기반 자동 디버깅**
DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems
December 7, 2025
저자: Ming Ma, Jue Zhang, Fangkai Yang, Yu Kang, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang
cs.AI
초록
대규모 언어 모델(LLM) 기반 다중 에이전트 시스템은 오류가 길고 분기된 상호작용 흐름에서 비롯되는 경우가 많아 디버깅이 어렵습니다. 현재 일반적인 방식은 LLM을 활용한 로그 기반 오류 국소화로, 특정 에이전트와 단계에 오류를 귀속시키는 것입니다. 그러나 이러한 패러다임에는 두 가지 주요 한계가 있습니다: (i) 로그만을 이용한 디버깅은 검증이 부족하여 검증되지 않은 가설을 생성하며, (ii) 단일 단계 또는 단일 에이전트 귀속은 종종 잘 정의되지 않은 문제입니다. 실패한 작업을 복구하기 위해 여러 개별 개입이 독립적으로 효과를 발휘할 수 있기 때문입니다. 첫 번째 한계를 해결하기 위해 우리는 DoVer라는 개입 주도 디버깅 프레임워크를 도입했습니다. 이는 표적 개입(예: 메시지 수정, 계획 변경)을 통한 능동적 검증으로 가설 생성을 보강합니다. 두 번째 한계에 대해서는 귀속 정확도 평가 대신, 시스템이 오류를 해결하거나 작업 성공을 위해 정량적 진전을 이루었는지 측정하는 데 중점을 둡니다. 이는 더욱 결과 지향적인 디버깅 관점을 반영합니다. Magnetic-One 에이전트 프레임워크 내에서 GAIA와 AssistantBench에서 파생된 데이터셋을 대상으로 한 실험에서 DoVer는 실패한 시도의 18-28%를 성공으로 전환했으며, 최대 16%의 중간 진전을 달성하고, 오류 가설의 30-60%를 검증하거나 반증했습니다. DoVer는 다른 데이터셋(GSMPlus)과 에이전트 프레임워크(AG2)에서도 효과적으로 작동하여 실패한 시도의 49%를 복구했습니다. 이러한 결과는 개입이 에이전트 시스템의 신뢰성 향상을 위한 실용적인 메커니즘임을 보여주며, LLM 기반 다중 에이전트 시스템을 위한 더 강력하고 확장 가능한 디버깅 방법 개발의 가능성을 열어줍니다. 프로젝트 웹사이트와 코드는 https://aka.ms/DoVer에서 공개될 예정입니다.
English
Large language model (LLM)-based multi-agent systems are challenging to debug because failures often arise from long, branching interaction traces. The prevailing practice is to leverage LLMs for log-based failure localization, attributing errors to a specific agent and step. However, this paradigm has two key limitations: (i) log-only debugging lacks validation, producing untested hypotheses, and (ii) single-step or single-agent attribution is often ill-posed, as we find that multiple distinct interventions can independently repair the failed task. To address the first limitation, we introduce DoVer, an intervention-driven debugging framework, which augments hypothesis generation with active verification through targeted interventions (e.g., editing messages, altering plans). For the second limitation, rather than evaluating on attribution accuracy, we focus on measuring whether the system resolves the failure or makes quantifiable progress toward task success, reflecting a more outcome-oriented view of debugging. Within the Magnetic-One agent framework, on the datasets derived from GAIA and AssistantBench, DoVer flips 18-28% of failed trials into successes, achieves up to 16% milestone progress, and validates or refutes 30-60% of failure hypotheses. DoVer also performs effectively on a different dataset (GSMPlus) and agent framework (AG2), where it recovers 49% of failed trials. These results highlight intervention as a practical mechanism for improving reliability in agentic systems and open opportunities for more robust, scalable debugging methods for LLM-based multi-agent systems. Project website and code will be available at https://aka.ms/DoVer.