MarsRL: Avanzamento dei Sistemi di Ragionamento Multi-Agente tramite Apprendimento per Rinforzo con Parallelismo Pipeline Agente-Orientato
MarsRL: Advancing Multi-Agent Reasoning System via Reinforcement Learning with Agentic Pipeline Parallelism
November 14, 2025
Autori: Shulin Liu, Dong Du, Tao Yang, Yang Li, Boyu Qiu
cs.AI
Abstract
I recenti progressi nei grandi modelli linguistici (LLM) sono stati favoriti dall'apprendimento per rinforzo con ricompense verificabili (RLVR) e dal ridimensionamento al momento del test. Tuttavia, la lunghezza limitata dell'output degli LLM vincola la profondità di ragionamento ottenibile in un singolo processo inferenziale. I sistemi di ragionamento multi-agente offrono un'alternativa promettente impiegando più agenti, come Risolutore, Verificatore e Correttore, per affinare iterativamente le soluzioni. Sebbene efficaci in modelli proprietari come Gemini 2.5 Pro, questi sistemi faticano a generalizzarsi per i modelli open-source a causa di capacità critiche e correttive insufficienti. Per affrontare questo problema, proponiamo MarsRL, un nuovo framework di apprendimento per rinforzo con parallelismo di pipeline agentico, progettato per ottimizzare congiuntamente tutti gli agenti nel sistema. MarsRL introduce meccanismi di ricompensa specifici per agente per mitigare il rumore nelle ricompense e impiega un addestramento di tipo pipeline per migliorare l'efficienza nella gestione di traiettorie lunghe. Applicato a Qwen3-30B-A3B-Thinking-2507, MarsRL migliora l'accuratezza su AIME2025 dall'86,5% al 93,3% e su BeyondAIME dal 64,9% al 73,8%, superando persino Qwen3-235B-A22B-Thinking-2507. Questi risultati evidenziano il potenziale di MarsRL di far progredire i sistemi di ragionamento multi-agente e ampliarne l'applicabilità in vari compiti di ragionamento.
English
Recent progress in large language models (LLMs) has been propelled by reinforcement learning with verifiable rewards (RLVR) and test-time scaling. However, the limited output length of LLMs constrains the depth of reasoning attainable in a single inference process. Multi-agent reasoning systems offer a promising alternative by employing multiple agents including Solver, Verifier, and Corrector, to iteratively refine solutions. While effective in closed-source models like Gemini 2.5 Pro, they struggle to generalize to open-source models due to insufficient critic and correction capabilities. To address this, we propose MarsRL, a novel reinforcement learning framework with agentic pipeline parallelism, designed to jointly optimize all agents in the system. MarsRL introduces agent-specific reward mechanisms to mitigate reward noise and employs pipeline-inspired training to enhance efficiency in handling long trajectories. Applied to Qwen3-30B-A3B-Thinking-2507, MarsRL improves AIME2025 accuracy from 86.5% to 93.3% and BeyondAIME from 64.9% to 73.8%, even surpassing Qwen3-235B-A22B-Thinking-2507. These findings highlight the potential of MarsRL to advance multi-agent reasoning systems and broaden their applicability across diverse reasoning tasks.