MiroMind-M1: Eine Open-Source-Innovation im mathematischen Denken durch kontextbewusste Multi-Stage-Policy-Optimierung
MiroMind-M1: An Open-Source Advancement in Mathematical Reasoning via Context-Aware Multi-Stage Policy Optimization
July 19, 2025
papers.authors: Xingxuan Li, Yao Xiao, Dianwen Ng, Hai Ye, Yue Deng, Xiang Lin, Bin Wang, Zhanfeng Mo, Chong Zhang, Yueyi Zhang, Zonglin Yang, Ruilin Li, Lei Lei, Shihao Xu, Han Zhao, Weiling Chen, Feng Ji, Lidong Bing
cs.AI
papers.abstract
Große Sprachmodelle haben sich in jüngster Zeit von der flüssigen Texterzeugung hin zu fortgeschrittenem Denken über verschiedene Domänen hinweg entwickelt, was zur Entstehung von Reasoning-Sprachmodellen (RLMs) geführt hat. Unter diesen Domänen dient das mathematische Denken als repräsentativer Benchmark, da es präzise mehrstufige Logik und abstraktes Denken erfordert, was auf andere Aufgaben verallgemeinert werden kann. Während Closed-Source-RLMs wie GPT-o3 beeindruckende Denkfähigkeiten demonstrieren, schränkt ihre proprietäre Natur die Transparenz und Reproduzierbarkeit ein. Obwohl viele Open-Source-Projekte diese Lücke schließen wollen, fehlt den meisten ausreichende Offenheit, da kritische Ressourcen wie Datensätze und detaillierte Trainingskonfigurationen weggelassen werden, was die Reproduzierbarkeit behindert. Um zu einer größeren Transparenz in der Entwicklung von RLMs beizutragen, stellen wir die MiroMind-M1-Serie vor, eine Reihe vollständig Open-Source-basierter RLMs, die auf dem Qwen-2.5-Backbone aufbauen und die Leistung bestehender Open-Source-RLMs erreichen oder übertreffen. Konkret werden unsere Modelle in zwei Stufen trainiert: SFT auf einem sorgfältig kuratierten Korpus von 719K mathematischen Denkproblemen mit verifizierten CoT-Trajektorien, gefolgt von RLVR auf 62K herausfordernden und verifizierbaren Problemen. Um die Robustheit und Effizienz des RLVR-Prozesses zu verbessern, führen wir Context-Aware Multi-Stage Policy Optimization ein, einen Algorithmus, der längenprogressive Trainingsmethoden mit einer adaptiven Wiederholungsstrafe kombiniert, um kontextbewusstes RL-Training zu fördern. Unser Modell erreicht state-of-the-art oder wettbewerbsfähige Leistung und überlegene Token-Effizienz unter den auf Qwen-2.5 basierenden Open-Source-7B- und 32B-Modellen auf den Benchmarks AIME24, AIME25 und MATH. Um die Reproduzierbarkeit zu erleichtern, veröffentlichen wir den vollständigen Stack: Modelle (MiroMind-M1-SFT-7B, MiroMind-M1-RL-7B, MiroMind-M1-RL-32B); Datensätze (MiroMind-M1-SFT-719K, MiroMind-M1-RL-62K); sowie alle Trainings- und Evaluierungskonfigurationen. Wir hoffen, dass diese Ressourcen weitere Forschungen unterstützen und die Fortschritte der Gemeinschaft fördern werden.
English
Large language models have recently evolved from fluent text generation to
advanced reasoning across diverse domains, giving rise to reasoning language
models. Among these domains, mathematical reasoning serves as a representative
benchmark as it requires precise multi-step logic and abstract reasoning, which
can be generalized to other tasks. While closed-source RLMs such as GPT-o3
demonstrate impressive reasoning capabilities, their proprietary nature limits
transparency and reproducibility. Although many open-source projects aim to
close this gap, most of them lack sufficient openness by omitting critical
resources such as datasets and detailed training configurations, which hinders
reproducibility. To contribute toward greater transparency in RLM development,
we introduce the MiroMind-M1 series, a set of fully open-source RLMs built on
the Qwen-2.5 backbone that match or exceed the performance of existing
open-source RLMs. Specifically, our models are trained in two stages: SFT on a
carefully curated corpus of 719K math-reasoning problems with verified CoT
trajectories, followed by RLVR on 62K challenging and verifiable problems. To
enhance the robustness and efficiency of the RLVR process, we introduce
Context-Aware Multi-Stage Policy Optimization, an algorithm that integrates
length-progressive training with an adaptive repetition penalty to encourage
context-aware RL training. Our model achieves state-of-the-art or competitive
performance and superior token efficiency among Qwen-2.5-based open-source 7B
and 32B models on the AIME24, AIME25, and MATH benchmarks. To facilitate
reproducibility, we release the complete stack: models (MiroMind-M1-SFT-7B,
MiroMind-M1-RL-7B, MiroMind-M1-RL-32B); datasets (MiroMind-M1-SFT-719K,
MiroMind-M1-RL-62K); and all training and evaluation configurations. We hope
these resources will support further research and foster community advancement.