ChatPaper.aiChatPaper

マルチエージェント深層研究:M-GRPOによるマルチエージェントシステムの訓練

Multi-Agent Deep Research: Training Multi-Agent Systems with M-GRPO

November 17, 2025
著者: Haoyang Hong, Jiajun Yin, Yuan Wang, Jingnan Liu, Zhe Chen, Ailing Yu, Ji Li, Zhiling Ye, Hansong Xiao, Yefei Chen, Hualei Zhou, Yun Yue, Minghui Yang, Chunxiao Guo, Junwei Liu, Peng Wei, Jinjie Gu
cs.AI

要旨

マルチエージェントシステムは一般的な推論タスクにおいて優れた性能を発揮する。しかし、専門領域での訓練不足が精度向上の妨げとなっている。現行の訓練手法では、システム内の全エージェントに対して統一的な大規模言語モデル(LLM)を訓練するが、エージェント間で基盤となるデータ分布が異なるため性能が制限される可能性がある。この課題を解決するためには、異なるLLMでマルチエージェントシステムを訓練することが次の段階として求められる。しかし、この手法には最適化上の課題が伴う。例えば、エージェントが異なる頻度で動作すること、ロールアウト時にサブエージェントの呼び出し回数が変動すること、エージェントが別々のサーバーに分散配置されることでエンドツーエンドの勾配フローが断絶することなどが挙げられる。これらの課題に対処するため、本論文ではメインエージェント(プランナー)と複数のサブエージェント(マルチターンツール実行器)で構成される垂直型マルチエージェントシステム向けに、Group Relative Policy Optimizationを階層的に拡張したM-GRPOを提案する。M-GRPOはメインエージェントとサブエージェントの両方に対してグループ相対アドバンテージを計算し、階層的な信用分配を維持する。さらに、サブエージェントの呼び出し回数が変動しても固定サイズのバッチを生成する軌道調整スキームを導入する。分離された訓練パイプラインでは、エージェントを別々のサーバーで実行し、共有ストアを介して最小限の統計情報を交換する。これにより、サーバー間での誤差逆伝播を必要としないスケーラブルな訓練が可能となる。実世界ベンチマーク(GAIA、XBench-DeepSearch、WebWalkerQA)を用いた実験では、M-GRPOが単一エージェントのGRPOおよびサブエージェントを固定したマルチエージェントGRPOを一貫して上回り、改善された安定性とサンプル効率を実証した。これらの結果は、異種混在の軌道を調整し、専門化されたエージェント間で最適化を分離することが、ツール拡張型推論タスクの性能向上に寄与することを示している。
English
Multi-agent systems perform well on general reasoning tasks. However, the lack of training in specialized areas hinders their accuracy. Current training methods train a unified large language model (LLM) for all agents in the system. This may limit the performances due to different distributions underlying for different agents. Therefore, training multi-agent systems with distinct LLMs should be the next step to solve. However, this approach introduces optimization challenges. For example, agents operate at different frequencies, rollouts involve varying sub-agent invocations, and agents are often deployed across separate servers, disrupting end-to-end gradient flow. To address these issues, we propose M-GRPO, a hierarchical extension of Group Relative Policy Optimization designed for vertical Multi-agent systems with a main agent (planner) and multiple sub-agents (multi-turn tool executors). M-GRPO computes group-relative advantages for both main and sub-agents, maintaining hierarchical credit assignment. It also introduces a trajectory-alignment scheme that generates fixed-size batches despite variable sub-agent invocations. We deploy a decoupled training pipeline in which agents run on separate servers and exchange minimal statistics via a shared store. This enables scalable training without cross-server backpropagation. In experiments on real-world benchmarks (e.g., GAIA, XBench-DeepSearch, and WebWalkerQA), M-GRPO consistently outperforms both single-agent GRPO and multi-agent GRPO with frozen sub-agents, demonstrating improved stability and sample efficiency. These results show that aligning heterogeneous trajectories and decoupling optimization across specialized agents enhances tool-augmented reasoning tasks.
PDF182February 7, 2026