MarsRL: エージェント指向パイプライン並列性を備えた強化学習によるマルチエージェント推論システムの進展
MarsRL: Advancing Multi-Agent Reasoning System via Reinforcement Learning with Agentic Pipeline Parallelism
November 14, 2025
著者: Shulin Liu, Dong Du, Tao Yang, Yang Li, Boyu Qiu
cs.AI
要旨
大規模言語モデル(LLM)における最近の進展は、検証可能な報酬を用いた強化学習(RLVR)とテスト時スケーリングによって推進されてきた。しかし、LLMの出力長制約は単一の推論プロセスで達成可能な推論の深さを制限している。マルチエージェント推論システムは、ソルバー、検証器、修正器を含む複数のエージェントを活用して解を反復的に改良する手法として有望な代替案を提供する。Gemini 2.5 Proのようなクローズドモデルでは有効であるものの、批評・修正能力の不足からオープンソースモデルへの汎化が困難である。この問題に対処するため、我々はシステム内の全エージェントを共同最適化する、エージェントパイプライン並列性を備えた新規強化学習フレームワークMarsRLを提案する。MarsRLは報酬ノイズを軽減するエージェント固有の報酬メカニズムを導入し、長い軌道処理の効率化のためにパイプライン発想の訓練を採用する。Qwen3-30B-A3B-Thinking-2507に適用した結果、MarsRLはAIME2025の精度を86.5%から93.3%に、BeyondAIMEを64.9%から73.8%に改善し、Qwen3-235B-A22B-Thinking-2507を凌駕する性能を示した。これらの知見は、MarsRLがマルチエージェント推論システムを発展させ、多様な推論タスクへの適用範囲を拡大する可能性を強調するものである。
English
Recent progress in large language models (LLMs) has been propelled by reinforcement learning with verifiable rewards (RLVR) and test-time scaling. However, the limited output length of LLMs constrains the depth of reasoning attainable in a single inference process. Multi-agent reasoning systems offer a promising alternative by employing multiple agents including Solver, Verifier, and Corrector, to iteratively refine solutions. While effective in closed-source models like Gemini 2.5 Pro, they struggle to generalize to open-source models due to insufficient critic and correction capabilities. To address this, we propose MarsRL, a novel reinforcement learning framework with agentic pipeline parallelism, designed to jointly optimize all agents in the system. MarsRL introduces agent-specific reward mechanisms to mitigate reward noise and employs pipeline-inspired training to enhance efficiency in handling long trajectories. Applied to Qwen3-30B-A3B-Thinking-2507, MarsRL improves AIME2025 accuracy from 86.5% to 93.3% and BeyondAIME from 64.9% to 73.8%, even surpassing Qwen3-235B-A22B-Thinking-2507. These findings highlight the potential of MarsRL to advance multi-agent reasoning systems and broaden their applicability across diverse reasoning tasks.