ChatPaper.aiChatPaper

MiroMind-M1: Um Avanço de Código Aberto no Raciocínio Matemático via Otimização de Política Multiestágio com Consciência Contextual

MiroMind-M1: An Open-Source Advancement in Mathematical Reasoning via Context-Aware Multi-Stage Policy Optimization

July 19, 2025
Autores: Xingxuan Li, Yao Xiao, Dianwen Ng, Hai Ye, Yue Deng, Xiang Lin, Bin Wang, Zhanfeng Mo, Chong Zhang, Yueyi Zhang, Zonglin Yang, Ruilin Li, Lei Lei, Shihao Xu, Han Zhao, Weiling Chen, Feng Ji, Lidong Bing
cs.AI

Resumo

Modelos de linguagem de grande escala evoluíram recentemente da geração de texto fluente para raciocínio avançado em diversos domínios, dando origem aos modelos de linguagem de raciocínio. Entre esses domínios, o raciocínio matemático serve como um benchmark representativo, pois exige lógica precisa de múltiplos passos e raciocínio abstrato, que podem ser generalizados para outras tarefas. Embora modelos de linguagem de raciocínio proprietários, como o GPT-3, demonstrem capacidades impressionantes de raciocínio, sua natureza fechada limita a transparência e a reprodutibilidade. Apesar de muitos projetos de código aberto buscarem reduzir essa lacuna, a maioria carece de abertura suficiente ao omitir recursos críticos, como conjuntos de dados e configurações detalhadas de treinamento, o que dificulta a reprodutibilidade. Para contribuir com maior transparência no desenvolvimento de modelos de linguagem de raciocínio, apresentamos a série MiroMind-M1, um conjunto de modelos de linguagem de raciocínio totalmente de código aberto, construídos sobre a base do Qwen-2.5, que igualam ou superam o desempenho dos modelos de código aberto existentes. Especificamente, nossos modelos são treinados em duas etapas: SFT (Fine-Tuning Supervisionado) em um corpus cuidadosamente curado de 719K problemas de raciocínio matemático com trajetórias de CoT (Chain-of-Thought) verificadas, seguido por RLVR (Reforço de Aprendizado com Verificação de Raciocínio) em 62K problemas desafiadores e verificáveis. Para aumentar a robustez e eficiência do processo de RLVR, introduzimos o Context-Aware Multi-Stage Policy Optimization, um algoritmo que integra treinamento progressivo em comprimento com uma penalidade de repetição adaptativa para incentivar o treinamento de reforço contextual. Nosso modelo alcança desempenho de ponta ou competitivo e superior eficiência de tokens entre os modelos de código aberto baseados no Qwen-2.5 de 7B e 32B nos benchmarks AIME24, AIME25 e MATH. Para facilitar a reprodutibilidade, liberamos a pilha completa: modelos (MiroMind-M1-SFT-7B, MiroMind-M1-RL-7B, MiroMind-M1-RL-32B); conjuntos de dados (MiroMind-M1-SFT-719K, MiroMind-M1-RL-62K); e todas as configurações de treinamento e avaliação. Esperamos que esses recursos apoiem pesquisas adicionais e promovam o avanço da comunidade.
English
Large language models have recently evolved from fluent text generation to advanced reasoning across diverse domains, giving rise to reasoning language models. Among these domains, mathematical reasoning serves as a representative benchmark as it requires precise multi-step logic and abstract reasoning, which can be generalized to other tasks. While closed-source RLMs such as GPT-o3 demonstrate impressive reasoning capabilities, their proprietary nature limits transparency and reproducibility. Although many open-source projects aim to close this gap, most of them lack sufficient openness by omitting critical resources such as datasets and detailed training configurations, which hinders reproducibility. To contribute toward greater transparency in RLM development, we introduce the MiroMind-M1 series, a set of fully open-source RLMs built on the Qwen-2.5 backbone that match or exceed the performance of existing open-source RLMs. Specifically, our models are trained in two stages: SFT on a carefully curated corpus of 719K math-reasoning problems with verified CoT trajectories, followed by RLVR on 62K challenging and verifiable problems. To enhance the robustness and efficiency of the RLVR process, we introduce Context-Aware Multi-Stage Policy Optimization, an algorithm that integrates length-progressive training with an adaptive repetition penalty to encourage context-aware RL training. Our model achieves state-of-the-art or competitive performance and superior token efficiency among Qwen-2.5-based open-source 7B and 32B models on the AIME24, AIME25, and MATH benchmarks. To facilitate reproducibility, we release the complete stack: models (MiroMind-M1-SFT-7B, MiroMind-M1-RL-7B, MiroMind-M1-RL-32B); datasets (MiroMind-M1-SFT-719K, MiroMind-M1-RL-62K); and all training and evaluation configurations. We hope these resources will support further research and foster community advancement.
PDF1192July 22, 2025