ChatPaper.aiChatPaper

MarsRL: 에이전트 파이프라인 병렬화 기반 강화학습을 통한 다중 에이전트 추론 시스템 고도화

MarsRL: Advancing Multi-Agent Reasoning System via Reinforcement Learning with Agentic Pipeline Parallelism

November 14, 2025
저자: Shulin Liu, Dong Du, Tao Yang, Yang Li, Boyu Qiu
cs.AI

초록

대규모 언어 모델(LLM)의 최근 발전은 검증 가능한 보상 강화 학습(RLVR)과 테스트 시간 스케일링에 의해 주도되어 왔습니다. 그러나 LLM의 제한된 출력 길이는 단일 추론 과정에서 달성 가능한 추론의 깊을 제약합니다. 다중 에이전트 추론 시스템은 Solver, Verifier, Corrector 등 여러 에이전트를 활용하여 해결책을 반복적으로 개선하는 유망한 대안을 제공합니다. Gemini 2.5 Pro와 같은 폐쇄형 모델에서는 효과적이지만, 비판 및 수정 능력이 부족하여 오픈소스 모델로의 일반화에는 어려움을 겪고 있습니다. 이를 해결하기 위해 우리는 시스템 내 모든 에이전트를 공동으로 최적화하도록 설계된, 에이전트 파이프라인 병렬 처리를 갖춘 새로운 강화 학습 프레임워크인 MarsRL을 제안합니다. MarsRL은 보상 노이즈를 완화하기 위해 에이전트별 보상 메커니즘을 도입하고, 긴 궤적 처리의 효율성을 높이기 위해 파이프라인 기반 훈련을 활용합니다. Qwen3-30B-A3B-Thinking-2507에 적용된 MarsRL은 AIME2025 정확도를 86.5%에서 93.3%로, BeyondAIME 정확도를 64.9%에서 73.8%로 향상시켜 Qwen3-235B-A22B-Thinking-2507을 능가하기도 했습니다. 이러한 결과는 MarsRL이 다중 에이전트 추론 시스템을 발전시키고 다양한 추론 과제에 대한 적용 범위를 확장할 잠재력이 있음을 보여줍니다.
English
Recent progress in large language models (LLMs) has been propelled by reinforcement learning with verifiable rewards (RLVR) and test-time scaling. However, the limited output length of LLMs constrains the depth of reasoning attainable in a single inference process. Multi-agent reasoning systems offer a promising alternative by employing multiple agents including Solver, Verifier, and Corrector, to iteratively refine solutions. While effective in closed-source models like Gemini 2.5 Pro, they struggle to generalize to open-source models due to insufficient critic and correction capabilities. To address this, we propose MarsRL, a novel reinforcement learning framework with agentic pipeline parallelism, designed to jointly optimize all agents in the system. MarsRL introduces agent-specific reward mechanisms to mitigate reward noise and employs pipeline-inspired training to enhance efficiency in handling long trajectories. Applied to Qwen3-30B-A3B-Thinking-2507, MarsRL improves AIME2025 accuracy from 86.5% to 93.3% and BeyondAIME from 64.9% to 73.8%, even surpassing Qwen3-235B-A22B-Thinking-2507. These findings highlight the potential of MarsRL to advance multi-agent reasoning systems and broaden their applicability across diverse reasoning tasks.
PDF124December 1, 2025