MarsRL: Развитие системы коллективного принятия решений с помощью обучения с подкреплением и конвейерного параллелизма на уровне агентов
MarsRL: Advancing Multi-Agent Reasoning System via Reinforcement Learning with Agentic Pipeline Parallelism
November 14, 2025
Авторы: Shulin Liu, Dong Du, Tao Yang, Yang Li, Boyu Qiu
cs.AI
Аннотация
Последние достижения в области больших языковых моделей (LLM) были обусловлены использованием обучения с подкреплением на основе верифицируемых вознаграждений (RLVR) и масштабированием на этапе тестирования. Однако ограниченная длина выходных данных LLM сдерживает глубину рассуждений, достижимую в рамках единого процесса вывода. Многоагентные системы рассуждений предлагают перспективную альтернативу, используя множество агентов, включая Решателя, Верификатора и Корректора, для итеративного улучшения решений. Несмотря на эффективность в закрытых моделях, таких как Gemini 2.5 Pro, эти системы плохо обобщаются на открытые модели из-за недостаточных критических и корректирующих способностей. Для решения этой проблемы мы предлагаем MarsRL — новую структуру обучения с подкреплением с параллелизмом агентного конвейера, предназначенную для совместной оптимизации всех агентов в системе. MarsRL вводит механизмы вознаграждения, специфичные для агентов, чтобы снизить шум вознаграждений, и использует обучение по принципу конвейера для повышения эффективности обработки длинных траекторий. Примененный к модели Qwen3-30B-A3B-Thinking-2507, MarsRL повысил точность на AIME2025 с 86,5% до 93,3% и на BeyondAIME с 64,9% до 73,8%, превзойдя даже показатели Qwen3-235B-A22B-Thinking-2507. Эти результаты демонстрируют потенциал MarsRL для развития многоагентных систем рассуждений и расширения их применимости к разнообразным задачам логического вывода.
English
Recent progress in large language models (LLMs) has been propelled by reinforcement learning with verifiable rewards (RLVR) and test-time scaling. However, the limited output length of LLMs constrains the depth of reasoning attainable in a single inference process. Multi-agent reasoning systems offer a promising alternative by employing multiple agents including Solver, Verifier, and Corrector, to iteratively refine solutions. While effective in closed-source models like Gemini 2.5 Pro, they struggle to generalize to open-source models due to insufficient critic and correction capabilities. To address this, we propose MarsRL, a novel reinforcement learning framework with agentic pipeline parallelism, designed to jointly optimize all agents in the system. MarsRL introduces agent-specific reward mechanisms to mitigate reward noise and employs pipeline-inspired training to enhance efficiency in handling long trajectories. Applied to Qwen3-30B-A3B-Thinking-2507, MarsRL improves AIME2025 accuracy from 86.5% to 93.3% and BeyondAIME from 64.9% to 73.8%, even surpassing Qwen3-235B-A22B-Thinking-2507. These findings highlight the potential of MarsRL to advance multi-agent reasoning systems and broaden their applicability across diverse reasoning tasks.