ChatPaper.aiChatPaper

共により強く:協調的LLMのためのオン方策強化学習

Stronger Together: On-Policy Reinforcement Learning for Collaborative LLMs

October 13, 2025
著者: Yujie Zhao, Lanxiang Hu, Yang Wang, Minmin Hou, Hao Zhang, Ke Ding, Jishen Zhao
cs.AI

要旨

マルチエージェントシステム(MAS)と強化学習(RL)は、大規模言語モデル(LLM)のエージェント能力を向上させるために広く利用されている。MASは役割ベースのオーケストレーションを通じてタスク性能を向上させ、RLは環境からの報酬を用いてGRPOスタイルの最適化などの強力なポリシーを学習する。しかし、オンラインRLをMASに適用する研究は未開拓であり、独特の課題を提示している。アルゴリズム的には、標準的なGRPOのグループ化仮定が崩れる。なぜなら、プロンプトは役割やターンによって異なるからである。システム的には、トレーニングスタックがMASワークフローのロールアウトと、単一ポリシーおよび複数ポリシーモデルの両方に対するオンラインポリシー更新をサポートする必要がある。 我々はAT-GRPOを提案する。これには、(i) MASに特化したエージェントおよびターンごとのグループ化RLアルゴリズムと、(ii) 単一ポリシーおよび複数ポリシーレジームの両方をサポートするトレーニングシステムが含まれる。ゲーム、計画、コーディング、数学タスクにおいて、AT-GRPOは大幅な向上をもたらす。長期計画において、単一エージェントRLのベースラインである14.0%から47.0%の精度を96.0%から99.5%に向上させる。また、推論性能も向上し、コーディングタスクでは平均3.87%から7.62%、数学タスクでは9.0%から17.93%の向上が見られる。コードと環境は以下で利用可能である:https://github.com/pettingllms-ai/PettingLLMs。
English
Multi-agent systems (MAS) and reinforcement learning (RL) are widely used to enhance the agentic capabilities of large language models (LLMs). MAS improves task performance through role-based orchestration, while RL uses environmental rewards to learn stronger policies, such as GRPO-style optimization. However, applying on-policy RL to MAS remains underexplored and presents unique challenges. Algorithmically, standard GRPO grouping assumptions break down because prompts vary by role and by turn. System-wise, the training stack must support MAS-workflow rollouts and on-policy updates for both single-policy and multi-policy models. We propose AT-GRPO, which includes (i) an agent- and turn-wise grouped RL algorithm tailored to MAS and (ii) a training system that supports both single- and multi-policy regimes. Across game, planning, coding, and math tasks, AT-GRPO delivers substantial gains. On long-horizon planning, it increases accuracy from a 14.0 to 47.0 percent single-agent RL baseline to 96.0 to 99.5 percent. It also improves reasoning performance, with average gains of 3.87 to 7.62 percent on coding tasks and 9.0 to 17.93 percent on math. Code and environments are available at: https://github.com/pettingllms-ai/PettingLLMs.
PDF252October 16, 2025