MarsRL: Vooruitgang in Multi-Agent Redeneersystemen via Reinforcement Learning met Agentische Pijplijnparallelisme
MarsRL: Advancing Multi-Agent Reasoning System via Reinforcement Learning with Agentic Pipeline Parallelism
November 14, 2025
Auteurs: Shulin Liu, Dong Du, Tao Yang, Yang Li, Boyu Qiu
cs.AI
Samenvatting
Recente vooruitgang in grote taalmodellen (LLM's) wordt gedreven door reinforcement learning met verifieerbare beloningen (RLVR) en schaling tijdens tests. De beperkte uitvoerlengte van LLM's beperkt echter de redeneerdiepte die in één inferentieproces haalbaar is. Multi-agent redeneersystemen bieden een veelbelovend alternatief door meerdere agents in te zetten, zoals een Oplosser, Verificateur en Corrector, om oplossingen iteratief te verfijnen. Hoewel effectief in gesloten modellen zoals Gemini 2.5 Pro, generaliseren ze moeilijk naar open-source modellen vanwege onvoldoende kritische beoordelings- en correctiecapaciteiten. Om dit aan te pakken, stellen we MarsRL voor, een nieuw reinforcement learning-framework met parallelle agent-pipelineverwerking, ontworpen om alle agents in het systeem gezamenlijk te optimaliseren. MarsRL introduceert agent-specifieke beloningsmechanismen om ruis in beloningen te verminderen en gebruikt pipeline-geïnspireerde training om de efficiëntie bij het verwerken van lange trajecten te verbeteren. Toegepast op Qwen3-30B-A3B-Thinking-2507 verbetert MarsRL de AIME2025-nauwkeurigheid van 86,5% naar 93,3% en BeyondAIME van 64,9% naar 73,8%, waarmee het zelfs Qwen3-235B-A22B-Thinking-2507 overtreft. Deze resultaten onderstrepen het potentieel van MarsRL om multi-agent redeneersystemen vooruit te helpen en hun toepasbaarheid over diverse redeneertaken te verbreden.
English
Recent progress in large language models (LLMs) has been propelled by reinforcement learning with verifiable rewards (RLVR) and test-time scaling. However, the limited output length of LLMs constrains the depth of reasoning attainable in a single inference process. Multi-agent reasoning systems offer a promising alternative by employing multiple agents including Solver, Verifier, and Corrector, to iteratively refine solutions. While effective in closed-source models like Gemini 2.5 Pro, they struggle to generalize to open-source models due to insufficient critic and correction capabilities. To address this, we propose MarsRL, a novel reinforcement learning framework with agentic pipeline parallelism, designed to jointly optimize all agents in the system. MarsRL introduces agent-specific reward mechanisms to mitigate reward noise and employs pipeline-inspired training to enhance efficiency in handling long trajectories. Applied to Qwen3-30B-A3B-Thinking-2507, MarsRL improves AIME2025 accuracy from 86.5% to 93.3% and BeyondAIME from 64.9% to 73.8%, even surpassing Qwen3-235B-A22B-Thinking-2507. These findings highlight the potential of MarsRL to advance multi-agent reasoning systems and broaden their applicability across diverse reasoning tasks.