MarsRL : Avancée des systèmes de raisonnement multi-agents par apprentissage par renforcement avec parallélisme pipeline agentique
MarsRL: Advancing Multi-Agent Reasoning System via Reinforcement Learning with Agentic Pipeline Parallelism
November 14, 2025
papers.authors: Shulin Liu, Dong Du, Tao Yang, Yang Li, Boyu Qiu
cs.AI
papers.abstract
Les progrès récents dans les grands modèles de langage (LLM) ont été propulsés par l'apprentissage par renforcement avec récompenses vérifiables (RLVR) et la mise à l'échelle au moment du test. Cependant, la longueur de sortie limitée des LLM contraint la profondeur de raisonnement réalisable en un seul processus d'inférence. Les systèmes de raisonnement multi-agents offrent une alternative prometteuse en employant plusieurs agents, notamment un Solveur, un Vérificateur et un Correcteur, pour affiner itérativement les solutions. Bien qu'efficaces dans des modèles propriétaires comme Gemini 2.5 Pro, ils peinent à généraliser aux modèles open source en raison de capacités de critique et de correction insuffisantes. Pour résoudre ce problème, nous proposons MarsRL, un nouveau cadre d'apprentissage par renforcement avec parallélisme de pipeline agentique, conçu pour optimiser conjointement tous les agents du système. MarsRL introduit des mécanismes de récompense spécifiques aux agents pour atténuer le bruit des récompenses et emploie un entraînement inspiré des pipelines pour améliorer l'efficacité dans le traitement des longues trajectoires. Appliqué à Qwen3-30B-A3B-Thinking-2507, MarsRL amène la précision AIME2025 de 86,5 % à 93,3 % et BeyondAIME de 64,9 % à 73,8 %, dépassant même Qwen3-235B-A22B-Thinking-2507. Ces résultats soulignent le potentiel de MarsRL pour faire progresser les systèmes de raisonnement multi-agents et élargir leur applicabilité à diverses tâches de raisonnement.
English
Recent progress in large language models (LLMs) has been propelled by reinforcement learning with verifiable rewards (RLVR) and test-time scaling. However, the limited output length of LLMs constrains the depth of reasoning attainable in a single inference process. Multi-agent reasoning systems offer a promising alternative by employing multiple agents including Solver, Verifier, and Corrector, to iteratively refine solutions. While effective in closed-source models like Gemini 2.5 Pro, they struggle to generalize to open-source models due to insufficient critic and correction capabilities. To address this, we propose MarsRL, a novel reinforcement learning framework with agentic pipeline parallelism, designed to jointly optimize all agents in the system. MarsRL introduces agent-specific reward mechanisms to mitigate reward noise and employs pipeline-inspired training to enhance efficiency in handling long trajectories. Applied to Qwen3-30B-A3B-Thinking-2507, MarsRL improves AIME2025 accuracy from 86.5% to 93.3% and BeyondAIME from 64.9% to 73.8%, even surpassing Qwen3-235B-A22B-Thinking-2507. These findings highlight the potential of MarsRL to advance multi-agent reasoning systems and broaden their applicability across diverse reasoning tasks.