ChatPaper.aiChatPaper

Dr. MAS: マルチエージェントLLMシステムのための安定強化学習

Dr. MAS: Stable Reinforcement Learning for Multi-Agent LLM Systems

February 9, 2026
著者: Lang Feng, Longtao Zheng, Shuo He, Fuxiang Zhang, Bo An
cs.AI

要旨

マルチエージェントLLMシステムは役割分担によって高度な推論とツール利用を実現するが、こうしたシステムに対する信頼性の高い強化学習(RL)事後学習は依然として困難である。本研究では、グループベースRLをマルチエージェントLLMシステムに拡張する際の学習不安定性の根本原因を理論的に特定する。GRPOスタイルの最適化下では、グローバル正規化ベースラインが多様なエージェントの報酬分布から乖離し、最終的に勾配ノルムの不安定性を引き起こすことを示す。この知見に基づき、マルチエージェントLLMシステム向けの簡潔かつ安定したRL学習手法Dr. MASを提案する。Dr. MASはエージェント単位の解決策として、各エージェント自身の報酬統計を用いたadvantageの正規化を行い、勾配スケールを調整することで理論的・実証的に学習を劇的に安定化させる。アルゴリズムに加え、Dr. MASはマルチエージェントLLMシステム向けのend-to-end RL学習フレームワークを提供し、スケーラブルなオーケストレーション、柔軟なエージェント単位のLLMサービスと最適化設定、LLMアクターバックエンドの共有リソーススケジューリングをサポートする。Qwen2.5およびQwen3シリーズモデルを用いたマルチエージェント数学推論とマルチターン検索ベンチマークで評価を実施。Dr. MASは従来のGRPOを明確に上回り(数学タスクで平均+5.6% avg@16、+4.6% pass@16、検索タスクで+15.2% avg@16、+13.1% pass@16)、勾配スパイクを大幅に抑制する。さらに、異種エージェントモデル割り当て下でも高い有効性を維持しつつ効率性を向上させる。
English
Multi-agent LLM systems enable advanced reasoning and tool use via role specialization, yet reliable reinforcement learning (RL) post-training for such systems remains difficult. In this work, we theoretically pinpoint a key reason for training instability when extending group-based RL to multi-agent LLM systems. We show that under GRPO-style optimization, a global normalization baseline may deviate from diverse agents' reward distributions, which ultimately leads to gradient-norm instability. Based on this finding, we propose Dr. MAS, a simple and stable RL training recipe for multi-agent LLM systems. Dr. MAS uses an agent-wise remedy: normalizing advantages per agent using each agent's own reward statistics, which calibrates gradient scales and dramatically stabilizes training, both theoretically and empirically. Beyond the algorithm, Dr. MAS provides an end-to-end RL training framework for multi-agent LLM systems, supporting scalable orchestration, flexible per-agent LLM serving and optimization configs, and shared resource scheduling of LLM actor backends. We evaluate Dr. MAS on multi-agent math reasoning and multi-turn search benchmarks using Qwen2.5 and Qwen3 series models. Dr. MAS achieves clear gains over vanilla GRPO (e.g., +5.6\% avg@16 and +4.6\% pass@16 on math, and +15.2\% avg@16 and +13.1\% pass@16 on search) while largely eliminating gradient spikes. Moreover, it remains highly effective under heterogeneous agent-model assignments while improving efficiency.
PDF111February 12, 2026