MarsRL: Avanzando en Sistemas de Razonamiento Multiagente mediante Aprendizaje por Refuerzo con Paralelismo de Tuberías Agénticas
MarsRL: Advancing Multi-Agent Reasoning System via Reinforcement Learning with Agentic Pipeline Parallelism
November 14, 2025
Autores: Shulin Liu, Dong Du, Tao Yang, Yang Li, Boyu Qiu
cs.AI
Resumen
Los recientes avances en los modelos de lenguaje grandes (LLMs) han sido impulsados por el aprendizaje por refuerzo con recompensas verificables (RLVR) y la escalabilidad en tiempo de prueba. Sin embargo, la longitud limitada de la salida de los LLMs restringe la profundidad de razonamiento alcanzable en un único proceso de inferencia. Los sistemas de razonamiento multiagente ofrecen una alternativa prometedora al emplear múltiples agentes, como Resolvedor, Verificador y Corrector, para refinar soluciones de forma iterativa. Aunque son efectivos en modelos de código cerrado como Gemini 2.5 Pro, presentan dificultades para generalizarse a modelos de código abierto debido a capacidades insuficientes de crítica y corrección. Para abordar esto, proponemos MarsRL, un novedoso marco de aprendizaje por refuerzo con paralelismo de pipeline agentico, diseñado para optimizar conjuntamente todos los agentes del sistema. MarsRL introduce mecanismos de recompensa específicos por agente para mitigar el ruido en las recompensas y emplea entrenamiento inspirado en pipelines para mejorar la eficiencia en el manejo de trayectorias largas. Aplicado a Qwen3-30B-A3B-Thinking-2507, MarsRL mejora la precisión en AIME2025 del 86.5% al 93.3% y en BeyondAIME del 64.9% al 73.8%, superando incluso a Qwen3-235B-A22B-Thinking-2507. Estos hallazgos resaltan el potencial de MarsRL para avanzar los sistemas de razonamiento multiagente y ampliar su aplicabilidad en diversas tareas de razonamiento.
English
Recent progress in large language models (LLMs) has been propelled by reinforcement learning with verifiable rewards (RLVR) and test-time scaling. However, the limited output length of LLMs constrains the depth of reasoning attainable in a single inference process. Multi-agent reasoning systems offer a promising alternative by employing multiple agents including Solver, Verifier, and Corrector, to iteratively refine solutions. While effective in closed-source models like Gemini 2.5 Pro, they struggle to generalize to open-source models due to insufficient critic and correction capabilities. To address this, we propose MarsRL, a novel reinforcement learning framework with agentic pipeline parallelism, designed to jointly optimize all agents in the system. MarsRL introduces agent-specific reward mechanisms to mitigate reward noise and employs pipeline-inspired training to enhance efficiency in handling long trajectories. Applied to Qwen3-30B-A3B-Thinking-2507, MarsRL improves AIME2025 accuracy from 86.5% to 93.3% and BeyondAIME from 64.9% to 73.8%, even surpassing Qwen3-235B-A22B-Thinking-2507. These findings highlight the potential of MarsRL to advance multi-agent reasoning systems and broaden their applicability across diverse reasoning tasks.