ChatPaper.aiChatPaper

MiroMind-M1: Een Open-Source Vooruitgang in Wiskundig Redeneren via Contextbewuste Multi-Stage Beleidsoptimalisatie

MiroMind-M1: An Open-Source Advancement in Mathematical Reasoning via Context-Aware Multi-Stage Policy Optimization

July 19, 2025
Auteurs: Xingxuan Li, Yao Xiao, Dianwen Ng, Hai Ye, Yue Deng, Xiang Lin, Bin Wang, Zhanfeng Mo, Chong Zhang, Yueyi Zhang, Zonglin Yang, Ruilin Li, Lei Lei, Shihao Xu, Han Zhao, Weiling Chen, Feng Ji, Lidong Bing
cs.AI

Samenvatting

Grote taalmodellen zijn recentelijk geëvolueerd van vloeiende tekstgeneratie naar geavanceerd redeneren over diverse domeinen, wat heeft geleid tot redeneertaalmodellen. Binnen deze domeinen dient wiskundig redeneren als een representatieve benchmark, omdat het precieze, meerstapslogica en abstract redeneren vereist, wat kan worden gegeneraliseerd naar andere taken. Hoewel closed-source RLMs zoals GPT-o3 indrukwekkende redeneervaardigheden demonstreren, beperkt hun propriëtaire aard de transparantie en reproduceerbaarheid. Hoewel veel open-sourceprojecten ernaar streven deze kloof te dichten, ontbreekt het de meeste aan voldoende openheid door het weglaten van kritieke bronnen zoals datasets en gedetailleerde trainingsconfiguraties, wat de reproduceerbaarheid belemmert. Om bij te dragen aan meer transparantie in de ontwikkeling van RLMs, introduceren we de MiroMind-M1-serie, een set volledig open-source RLMs gebouwd op het Qwen-2.5-backbone die de prestaties van bestaande open-source RLMs evenaren of overtreffen. Specifiek worden onze modellen in twee fasen getraind: SFT op een zorgvuldig samengesteld corpus van 719K wiskundige redeneerproblemen met geverifieerde CoT-trajecten, gevolgd door RLVR op 62K uitdagende en verifieerbare problemen. Om de robuustheid en efficiëntie van het RLVR-proces te verbeteren, introduceren we Context-Aware Multi-Stage Policy Optimization, een algoritme dat lengteprogressieve training integreert met een adaptieve herhalingsstraf om contextbewuste RL-training te stimuleren. Ons model behaalt state-of-the-art of competitieve prestaties en superieure token-efficiëntie onder Qwen-2.5-gebaseerde open-source 7B en 32B modellen op de AIME24, AIME25 en MATH benchmarks. Om reproduceerbaarheid te bevorderen, geven we de complete stack vrij: modellen (MiroMind-M1-SFT-7B, MiroMind-M1-RL-7B, MiroMind-M1-RL-32B); datasets (MiroMind-M1-SFT-719K, MiroMind-M1-RL-62K); en alle trainings- en evaluatieconfiguraties. We hopen dat deze bronnen verder onderzoek zullen ondersteunen en de gemeenschapsvooruitgang zullen bevorderen.
English
Large language models have recently evolved from fluent text generation to advanced reasoning across diverse domains, giving rise to reasoning language models. Among these domains, mathematical reasoning serves as a representative benchmark as it requires precise multi-step logic and abstract reasoning, which can be generalized to other tasks. While closed-source RLMs such as GPT-o3 demonstrate impressive reasoning capabilities, their proprietary nature limits transparency and reproducibility. Although many open-source projects aim to close this gap, most of them lack sufficient openness by omitting critical resources such as datasets and detailed training configurations, which hinders reproducibility. To contribute toward greater transparency in RLM development, we introduce the MiroMind-M1 series, a set of fully open-source RLMs built on the Qwen-2.5 backbone that match or exceed the performance of existing open-source RLMs. Specifically, our models are trained in two stages: SFT on a carefully curated corpus of 719K math-reasoning problems with verified CoT trajectories, followed by RLVR on 62K challenging and verifiable problems. To enhance the robustness and efficiency of the RLVR process, we introduce Context-Aware Multi-Stage Policy Optimization, an algorithm that integrates length-progressive training with an adaptive repetition penalty to encourage context-aware RL training. Our model achieves state-of-the-art or competitive performance and superior token efficiency among Qwen-2.5-based open-source 7B and 32B models on the AIME24, AIME25, and MATH benchmarks. To facilitate reproducibility, we release the complete stack: models (MiroMind-M1-SFT-7B, MiroMind-M1-RL-7B, MiroMind-M1-RL-32B); datasets (MiroMind-M1-SFT-719K, MiroMind-M1-RL-62K); and all training and evaluation configurations. We hope these resources will support further research and foster community advancement.
PDF1312July 22, 2025