MarsRL: Weiterentwicklung von Multi-Agenten-Reasoning-Systemen durch Reinforcement Learning mit agentenbasierter Pipeline-Parallelität
MarsRL: Advancing Multi-Agent Reasoning System via Reinforcement Learning with Agentic Pipeline Parallelism
November 14, 2025
papers.authors: Shulin Liu, Dong Du, Tao Yang, Yang Li, Boyu Qiu
cs.AI
papers.abstract
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) wurden durch Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) und Skalierung zur Testzeit vorangetrieben. Die begrenzte Ausgabelänge von LLMs schränkt jedoch die Tiefe der Argumentation ein, die in einem einzelnen Inferenzprozess erreichbar ist. Multi-Agenten-Systeme für das logische Schließen bieten eine vielversprechende Alternative, indem sie mehrere Agenten – darunter Solver, Verifier und Corrector – einsetzen, um Lösungen iterativ zu verbessern. Obwohl sie in Closed-Source-Modellen wie Gemini 2.5 Pro effektiv sind, lassen sie sich aufgrund unzureichender Kritik- und Korrekturfähigkeiten nur schwer auf Open-Source-Modelle verallgemeinern. Um dieses Problem zu lösen, schlagen wir MarsRL vor, ein neuartiges Reinforcement-Learning-Framework mit agentenbasierter Pipeline-Parallelität, das darauf ausgelegt ist, alle Agenten im System gemeinsam zu optimieren. MarsRL führt agentspezifische Belohnungsmechanismen ein, um Belohnungsrauschen zu reduzieren, und setzt pipeline-inspiriertes Training ein, um die Effizienz bei der Verarbeitung langer Trajektorien zu steigern. Angewendet auf Qwen3-30B-A3B-Thinking-2507 verbessert MarsRL die AIME2025-Genauigkeit von 86,5 % auf 93,3 % und BeyondAIME von 64,9 % auf 73,8 % und übertrifft sogar Qwen3-235B-A22B-Thinking-2507. Diese Ergebnisse unterstreichen das Potenzial von MarsRL, Multi-Agenten-Systeme für das logische Schließen weiterzuentwickeln und ihre Anwendbarkeit auf verschiedene Reasoning-Aufgaben auszuweiten.
English
Recent progress in large language models (LLMs) has been propelled by reinforcement learning with verifiable rewards (RLVR) and test-time scaling. However, the limited output length of LLMs constrains the depth of reasoning attainable in a single inference process. Multi-agent reasoning systems offer a promising alternative by employing multiple agents including Solver, Verifier, and Corrector, to iteratively refine solutions. While effective in closed-source models like Gemini 2.5 Pro, they struggle to generalize to open-source models due to insufficient critic and correction capabilities. To address this, we propose MarsRL, a novel reinforcement learning framework with agentic pipeline parallelism, designed to jointly optimize all agents in the system. MarsRL introduces agent-specific reward mechanisms to mitigate reward noise and employs pipeline-inspired training to enhance efficiency in handling long trajectories. Applied to Qwen3-30B-A3B-Thinking-2507, MarsRL improves AIME2025 accuracy from 86.5% to 93.3% and BeyondAIME from 64.9% to 73.8%, even surpassing Qwen3-235B-A22B-Thinking-2507. These findings highlight the potential of MarsRL to advance multi-agent reasoning systems and broaden their applicability across diverse reasoning tasks.