ChatPaper.aiChatPaper

MiroMind-M1 : Une avancée open-source dans le raisonnement mathématique via une optimisation de politique multi-étapes contextuellement consciente

MiroMind-M1: An Open-Source Advancement in Mathematical Reasoning via Context-Aware Multi-Stage Policy Optimization

July 19, 2025
papers.authors: Xingxuan Li, Yao Xiao, Dianwen Ng, Hai Ye, Yue Deng, Xiang Lin, Bin Wang, Zhanfeng Mo, Chong Zhang, Yueyi Zhang, Zonglin Yang, Ruilin Li, Lei Lei, Shihao Xu, Han Zhao, Weiling Chen, Feng Ji, Lidong Bing
cs.AI

papers.abstract

Les grands modèles de langage ont récemment évolué de la génération fluide de texte vers un raisonnement avancé dans divers domaines, donnant naissance aux modèles de langage à raisonnement. Parmi ces domaines, le raisonnement mathématique sert de référence représentative car il nécessite une logique multi-étapes précise et un raisonnement abstrait, qui peuvent être généralisés à d'autres tâches. Bien que les modèles de raisonnement propriétaires tels que GPT-3 démontrent des capacités de raisonnement impressionnantes, leur nature fermée limite la transparence et la reproductibilité. Bien que de nombreux projets open-source visent à combler cet écart, la plupart manquent d'une ouverture suffisante en omettant des ressources critiques telles que les jeux de données et les configurations détaillées d'entraînement, ce qui entrave la reproductibilité. Pour contribuer à une plus grande transparence dans le développement des modèles de raisonnement, nous présentons la série MiroMind-M1, un ensemble de modèles de raisonnement entièrement open-source basés sur l'architecture Qwen-2.5, qui égalent ou surpassent les performances des modèles open-source existants. Plus précisément, nos modèles sont entraînés en deux étapes : un fine-tuning supervisé (SFT) sur un corpus soigneusement sélectionné de 719K problèmes de raisonnement mathématique avec des trajectoires de raisonnement en chaîne (CoT) vérifiées, suivi d'un apprentissage par renforcement avec vérification (RLVR) sur 62K problèmes complexes et vérifiables. Pour améliorer la robustesse et l'efficacité du processus RLVR, nous introduisons l'optimisation de politique multi-étapes contextuelle, un algorithme qui intègre un entraînement progressif en longueur avec une pénalité de répétition adaptative pour encourager un apprentissage par renforcement contextuel. Notre modèle atteint des performances de pointe ou compétitives, ainsi qu'une efficacité supérieure en termes de tokens parmi les modèles open-source basés sur Qwen-2.5 de 7B et 32B sur les benchmarks AIME24, AIME25 et MATH. Pour faciliter la reproductibilité, nous publions l'ensemble complet : les modèles (MiroMind-M1-SFT-7B, MiroMind-M1-RL-7B, MiroMind-M1-RL-32B) ; les jeux de données (MiroMind-M1-SFT-719K, MiroMind-M1-RL-62K) ; ainsi que toutes les configurations d'entraînement et d'évaluation. Nous espérons que ces ressources soutiendront la recherche future et favoriseront l'avancement de la communauté.
English
Large language models have recently evolved from fluent text generation to advanced reasoning across diverse domains, giving rise to reasoning language models. Among these domains, mathematical reasoning serves as a representative benchmark as it requires precise multi-step logic and abstract reasoning, which can be generalized to other tasks. While closed-source RLMs such as GPT-o3 demonstrate impressive reasoning capabilities, their proprietary nature limits transparency and reproducibility. Although many open-source projects aim to close this gap, most of them lack sufficient openness by omitting critical resources such as datasets and detailed training configurations, which hinders reproducibility. To contribute toward greater transparency in RLM development, we introduce the MiroMind-M1 series, a set of fully open-source RLMs built on the Qwen-2.5 backbone that match or exceed the performance of existing open-source RLMs. Specifically, our models are trained in two stages: SFT on a carefully curated corpus of 719K math-reasoning problems with verified CoT trajectories, followed by RLVR on 62K challenging and verifiable problems. To enhance the robustness and efficiency of the RLVR process, we introduce Context-Aware Multi-Stage Policy Optimization, an algorithm that integrates length-progressive training with an adaptive repetition penalty to encourage context-aware RL training. Our model achieves state-of-the-art or competitive performance and superior token efficiency among Qwen-2.5-based open-source 7B and 32B models on the AIME24, AIME25, and MATH benchmarks. To facilitate reproducibility, we release the complete stack: models (MiroMind-M1-SFT-7B, MiroMind-M1-RL-7B, MiroMind-M1-RL-32B); datasets (MiroMind-M1-SFT-719K, MiroMind-M1-RL-62K); and all training and evaluation configurations. We hope these resources will support further research and foster community advancement.
PDF1081July 22, 2025