ChatPaper.aiChatPaper

MiroMind-M1: Un Progresso Open-Source nel Ragionamento Matematico tramite Ottimizzazione Multi-Stadio Consapevole del Contesto

MiroMind-M1: An Open-Source Advancement in Mathematical Reasoning via Context-Aware Multi-Stage Policy Optimization

July 19, 2025
Autori: Xingxuan Li, Yao Xiao, Dianwen Ng, Hai Ye, Yue Deng, Xiang Lin, Bin Wang, Zhanfeng Mo, Chong Zhang, Yueyi Zhang, Zonglin Yang, Ruilin Li, Lei Lei, Shihao Xu, Han Zhao, Weiling Chen, Feng Ji, Lidong Bing
cs.AI

Abstract

I grandi modelli linguistici hanno recentemente evoluto dalla generazione fluida di testo al ragionamento avanzato in diversi domini, dando origine ai modelli linguistici di ragionamento. Tra questi domini, il ragionamento matematico rappresenta un benchmark significativo poiché richiede una logica precisa a più passaggi e un ragionamento astratto, che può essere generalizzato ad altri compiti. Mentre modelli di ragionamento linguistico proprietari come GPT-3 dimostrano capacità di ragionamento impressionanti, la loro natura chiusa limita la trasparenza e la riproducibilità. Sebbene molti progetti open-source mirino a colmare questa lacuna, la maggior parte di essi manca di sufficiente apertura omettendo risorse critiche come dataset e configurazioni dettagliate di addestramento, il che ostacola la riproducibilità. Per contribuire a una maggiore trasparenza nello sviluppo dei modelli di ragionamento linguistico, introduciamo la serie MiroMind-M1, un insieme di modelli di ragionamento linguistico completamente open-source basati sull'architettura Qwen-2.5 che eguagliano o superano le prestazioni dei modelli open-source esistenti. Nello specifico, i nostri modelli sono addestrati in due fasi: SFT su un corpus accuratamente curato di 719K problemi di ragionamento matematico con traiettorie CoT verificate, seguito da RLVR su 62K problemi complessi e verificabili. Per migliorare la robustezza e l'efficienza del processo RLVR, introduciamo l'ottimizzazione multi-stadio basata sul contesto, un algoritmo che integra l'addestramento progressivo in lunghezza con una penalità di ripetizione adattiva per incoraggiare l'addestramento RL consapevole del contesto. Il nostro modello raggiunge prestazioni all'avanguardia o competitive e una superior efficienza nei token tra i modelli open-source basati su Qwen-2.5 da 7B e 32B sui benchmark AIME24, AIME25 e MATH. Per facilitare la riproducibilità, rilasciamo l'intero stack: modelli (MiroMind-M1-SFT-7B, MiroMind-M1-RL-7B, MiroMind-M1-RL-32B); dataset (MiroMind-M1-SFT-719K, MiroMind-M1-RL-62K); e tutte le configurazioni di addestramento e valutazione. Speriamo che queste risorse supportino ulteriori ricerche e favoriscano il progresso della comunità.
English
Large language models have recently evolved from fluent text generation to advanced reasoning across diverse domains, giving rise to reasoning language models. Among these domains, mathematical reasoning serves as a representative benchmark as it requires precise multi-step logic and abstract reasoning, which can be generalized to other tasks. While closed-source RLMs such as GPT-o3 demonstrate impressive reasoning capabilities, their proprietary nature limits transparency and reproducibility. Although many open-source projects aim to close this gap, most of them lack sufficient openness by omitting critical resources such as datasets and detailed training configurations, which hinders reproducibility. To contribute toward greater transparency in RLM development, we introduce the MiroMind-M1 series, a set of fully open-source RLMs built on the Qwen-2.5 backbone that match or exceed the performance of existing open-source RLMs. Specifically, our models are trained in two stages: SFT on a carefully curated corpus of 719K math-reasoning problems with verified CoT trajectories, followed by RLVR on 62K challenging and verifiable problems. To enhance the robustness and efficiency of the RLVR process, we introduce Context-Aware Multi-Stage Policy Optimization, an algorithm that integrates length-progressive training with an adaptive repetition penalty to encourage context-aware RL training. Our model achieves state-of-the-art or competitive performance and superior token efficiency among Qwen-2.5-based open-source 7B and 32B models on the AIME24, AIME25, and MATH benchmarks. To facilitate reproducibility, we release the complete stack: models (MiroMind-M1-SFT-7B, MiroMind-M1-RL-7B, MiroMind-M1-RL-32B); datasets (MiroMind-M1-SFT-719K, MiroMind-M1-RL-62K); and all training and evaluation configurations. We hope these resources will support further research and foster community advancement.
PDF1212July 22, 2025