MarsRL: Avanço do Sistema de Raciocínio Multiagente via Aprendizagem por Reforço com Paralelismo de Pipeline Agêntico

Resumo

Os recentes avanços em modelos de linguagem de grande escala (LLMs) têm sido impulsionados pelo aprendizado por reforço com recompensas verificáveis (RLVR) e pela escalagem em tempo de teste. No entanto, o comprimento limitado da saída dos LLMs restringe a profundidade de raciocínio alcançável em um único processo de inferência. Os sistemas de raciocínio multiagente oferecem uma alternativa promissora ao empregar múltiplos agentes, incluindo Solucionador, Verificador e Corretor, para refinar soluções iterativamente. Embora eficazes em modelos proprietários como o Gemini 2.5 Pro, esses sistemas lutam para generalizar em modelos de código aberto devido a capacidades insuficientes de crítica e correção. Para resolver isso, propomos o MarsRL, uma nova estrutura de aprendizado por reforço com paralelismo de pipeline agentivo, projetada para otimizar conjuntamente todos os agentes do sistema. O MarsRL introduz mecanismos de recompensa específicos por agente para mitigar o ruído nas recompensas e emprega treinamento inspirado em pipeline para aumentar a eficiência no tratamento de trajetórias longas. Aplicado ao Qwen3-30B-A3B-Thinking-2507, o MarsRL melhorou a precisão no AIME2025 de 86,5% para 93,3% e no BeyondAIME de 64,9% para 73,8%, superando inclusive o Qwen3-235B-A22B-Thinking-2507. Esses resultados destacam o potencial do MarsRL para avançar os sistemas de raciocínio multiagente e ampliar sua aplicabilidade em diversas tarefas de raciocínio.

English

Recent progress in large language models (LLMs) has been propelled by reinforcement learning with verifiable rewards (RLVR) and test-time scaling. However, the limited output length of LLMs constrains the depth of reasoning attainable in a single inference process. Multi-agent reasoning systems offer a promising alternative by employing multiple agents including Solver, Verifier, and Corrector, to iteratively refine solutions. While effective in closed-source models like Gemini 2.5 Pro, they struggle to generalize to open-source models due to insufficient critic and correction capabilities. To address this, we propose MarsRL, a novel reinforcement learning framework with agentic pipeline parallelism, designed to jointly optimize all agents in the system. MarsRL introduces agent-specific reward mechanisms to mitigate reward noise and employs pipeline-inspired training to enhance efficiency in handling long trajectories. Applied to Qwen3-30B-A3B-Thinking-2507, MarsRL improves AIME2025 accuracy from 86.5% to 93.3% and BeyondAIME from 64.9% to 73.8%, even surpassing Qwen3-235B-A22B-Thinking-2507. These findings highlight the potential of MarsRL to advance multi-agent reasoning systems and broaden their applicability across diverse reasoning tasks.

MarsRL: Avanço do Sistema de Raciocínio Multiagente via Aprendizagem por Reforço com Paralelismo de Pipeline Agêntico

MarsRL: Advancing Multi-Agent Reasoning System via Reinforcement Learning with Agentic Pipeline Parallelism

Resumo

Support