ChatPaper.aiChatPaper

DoVer: 大規模言語モデルマルチエージェントシステムにおける介入駆動型自動デバッグ

DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems

December 7, 2025
著者: Ming Ma, Jue Zhang, Fangkai Yang, Yu Kang, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang
cs.AI

要旨

大規模言語モデル(LLM)ベースのマルチエージェントシステムは、障害が長く分岐した相互作用トレースから生じることが多いため、デバッグが困難です。現在の主流は、LLMを活用したログベースの障害局所化であり、特定のエージェントとステップにエラーを帰属させます。しかし、このパラダイムには2つの重大な限界があります:(i)ログのみに依存するデバッグは検証を欠き、未検証の仮説を生成する、(ii)単一ステップまたは単一エージェントへの帰属は不適切な場合が多く、複数の異なる介入がそれぞれ独立して失敗したタスクを修復し得ることを私たちは発見しました。最初の限界に対処するため、私たちは介入駆動型デバッグフレームワーク「DoVer」を提案します。これは仮説生成を、ターゲットを絞った介入(例:メッセージの編集、計画の変更)による能動的検証で強化します。第二の限界については、帰属の正確性を評価する代わりに、システムが障害を解決するか、タスク成功に向けた定量可能な進展を達成するかに焦点を当て、より結果指向のデバッグ視点を反映します。Magnetic-Oneエージェントフレームワークにおいて、GAIAとAssistantBenchに基づくデータセットで、DoVerは失敗した試行の18-28%を成功に転換し、最大16%のマイルストーン進捗を達成し、障害仮説の30-60%を検証または否定しました。DoVerは異なるデータセット(GSMPlus)とエージェントフレームワーク(AG2)でも効果的に機能し、失敗した試行の49%を回復しました。これらの結果は、介入がエージェントシステムの信頼性向上における実用的なメカニズムであることを示し、LLMベースのマルチエージェントシステム向けのより堅牢でスケーラブルなデバッグ手法の可能性を拓くものです。プロジェクトウェブサイトとコードはhttps://aka.ms/DoVerで公開予定です。
English
Large language model (LLM)-based multi-agent systems are challenging to debug because failures often arise from long, branching interaction traces. The prevailing practice is to leverage LLMs for log-based failure localization, attributing errors to a specific agent and step. However, this paradigm has two key limitations: (i) log-only debugging lacks validation, producing untested hypotheses, and (ii) single-step or single-agent attribution is often ill-posed, as we find that multiple distinct interventions can independently repair the failed task. To address the first limitation, we introduce DoVer, an intervention-driven debugging framework, which augments hypothesis generation with active verification through targeted interventions (e.g., editing messages, altering plans). For the second limitation, rather than evaluating on attribution accuracy, we focus on measuring whether the system resolves the failure or makes quantifiable progress toward task success, reflecting a more outcome-oriented view of debugging. Within the Magnetic-One agent framework, on the datasets derived from GAIA and AssistantBench, DoVer flips 18-28% of failed trials into successes, achieves up to 16% milestone progress, and validates or refutes 30-60% of failure hypotheses. DoVer also performs effectively on a different dataset (GSMPlus) and agent framework (AG2), where it recovers 49% of failed trials. These results highlight intervention as a practical mechanism for improving reliability in agentic systems and open opportunities for more robust, scalable debugging methods for LLM-based multi-agent systems. Project website and code will be available at https://aka.ms/DoVer.
PDF254December 10, 2025