ChatPaper.aiChatPaper

MiroMind-M1: 컨텍스트 인식 다단계 정책 최적화를 통한 수학적 추론의 오픈소스 진보

MiroMind-M1: An Open-Source Advancement in Mathematical Reasoning via Context-Aware Multi-Stage Policy Optimization

July 19, 2025
저자: Xingxuan Li, Yao Xiao, Dianwen Ng, Hai Ye, Yue Deng, Xiang Lin, Bin Wang, Zhanfeng Mo, Chong Zhang, Yueyi Zhang, Zonglin Yang, Ruilin Li, Lei Lei, Shihao Xu, Han Zhao, Weiling Chen, Feng Ji, Lidong Bing
cs.AI

초록

대규모 언어 모델은 최근 유창한 텍스트 생성에서 다양한 도메인에 걸친 고급 추론 능력으로 진화하며, 추론 언어 모델(Reasoning Language Models, RLMs)로 발전했습니다. 이러한 도메인 중 수학적 추론은 정밀한 다단계 논리와 추상적 사고를 요구하며, 이는 다른 작업으로 일반화될 수 있기 때문에 대표적인 벤치마크로 작용합니다. GPT-3와 같은 폐쇄형 RLMs는 인상적인 추론 능력을 보여주지만, 그들의 독점적 성격은 투명성과 재현성을 제한합니다. 많은 오픈소스 프로젝트가 이러한 격차를 해소하려고 노력하고 있지만, 대부분 데이터셋과 상세한 학습 설정과 같은 중요한 리소스를 누락함으로써 충분한 개방성을 제공하지 못하고 있어 재현성을 저해합니다. RLM 개발의 투명성을 높이기 위해, 우리는 Qwen-2.5 백본을 기반으로 기존 오픈소스 RLMs의 성능을 능가하거나 동등한 성능을 보이는 완전한 오픈소스 RLMs인 MiroMind-M1 시리즈를 소개합니다. 구체적으로, 우리의 모델은 검증된 CoT(Chain-of-Thought) 궤적을 포함한 719K개의 수학적 추론 문제로 구성된 신중하게 선별된 코퍼스에 대한 SFT(Supervised Fine-Tuning)와 62K개의 도전적이고 검증 가능한 문제에 대한 RLVR(Reinforcement Learning with Verifiable Reasoning) 두 단계로 학습됩니다. RLVR 프로세스의 견고성과 효율성을 향상시키기 위해, 우리는 길이 점진적 학습(length-progressive training)과 적응형 반복 패널티(adaptive repetition penalty)를 통합하여 컨텍스트 인식 RL 학습을 촉진하는 Context-Aware Multi-Stage Policy Optimization 알고리즘을 도입했습니다. 우리의 모델은 AIME24, AIME25, MATH 벤치마크에서 Qwen-2.5 기반 오픈소스 7B 및 32B 모델 중 최신 기술 수준 또는 경쟁력 있는 성능과 우수한 토큰 효율성을 달성했습니다. 재현성을 촉진하기 위해, 우리는 전체 스택을 공개합니다: 모델(MiroMind-M1-SFT-7B, MiroMind-M1-RL-7B, MiroMind-M1-RL-32B); 데이터셋(MiroMind-M1-SFT-719K, MiroMind-M1-RL-62K); 그리고 모든 학습 및 평가 설정. 이러한 리소스가 추가 연구를 지원하고 커뮤니티의 발전을 촉진하기를 바랍니다.
English
Large language models have recently evolved from fluent text generation to advanced reasoning across diverse domains, giving rise to reasoning language models. Among these domains, mathematical reasoning serves as a representative benchmark as it requires precise multi-step logic and abstract reasoning, which can be generalized to other tasks. While closed-source RLMs such as GPT-o3 demonstrate impressive reasoning capabilities, their proprietary nature limits transparency and reproducibility. Although many open-source projects aim to close this gap, most of them lack sufficient openness by omitting critical resources such as datasets and detailed training configurations, which hinders reproducibility. To contribute toward greater transparency in RLM development, we introduce the MiroMind-M1 series, a set of fully open-source RLMs built on the Qwen-2.5 backbone that match or exceed the performance of existing open-source RLMs. Specifically, our models are trained in two stages: SFT on a carefully curated corpus of 719K math-reasoning problems with verified CoT trajectories, followed by RLVR on 62K challenging and verifiable problems. To enhance the robustness and efficiency of the RLVR process, we introduce Context-Aware Multi-Stage Policy Optimization, an algorithm that integrates length-progressive training with an adaptive repetition penalty to encourage context-aware RL training. Our model achieves state-of-the-art or competitive performance and superior token efficiency among Qwen-2.5-based open-source 7B and 32B models on the AIME24, AIME25, and MATH benchmarks. To facilitate reproducibility, we release the complete stack: models (MiroMind-M1-SFT-7B, MiroMind-M1-RL-7B, MiroMind-M1-RL-32B); datasets (MiroMind-M1-SFT-719K, MiroMind-M1-RL-62K); and all training and evaluation configurations. We hope these resources will support further research and foster community advancement.
PDF1081July 22, 2025