MiroMind-M1: Un avance de código abierto en razonamiento matemático mediante optimización de políticas multietapa con conciencia contextual
MiroMind-M1: An Open-Source Advancement in Mathematical Reasoning via Context-Aware Multi-Stage Policy Optimization
July 19, 2025
Autores: Xingxuan Li, Yao Xiao, Dianwen Ng, Hai Ye, Yue Deng, Xiang Lin, Bin Wang, Zhanfeng Mo, Chong Zhang, Yueyi Zhang, Zonglin Yang, Ruilin Li, Lei Lei, Shihao Xu, Han Zhao, Weiling Chen, Feng Ji, Lidong Bing
cs.AI
Resumen
Los modelos de lenguaje de gran escala han evolucionado recientemente desde la generación fluida de texto hasta el razonamiento avanzado en diversos dominios, dando lugar a los modelos de lenguaje de razonamiento. Entre estos dominios, el razonamiento matemático sirve como un punto de referencia representativo, ya que requiere lógica precisa de múltiples pasos y razonamiento abstracto, lo cual puede generalizarse a otras tareas. Aunque los modelos de lenguaje de razonamiento de código cerrado, como GPT-3, demuestran capacidades de razonamiento impresionantes, su naturaleza propietaria limita la transparencia y la reproducibilidad. A pesar de que muchos proyectos de código abierto buscan cerrar esta brecha, la mayoría carece de suficiente apertura al omitir recursos críticos como conjuntos de datos y configuraciones detalladas de entrenamiento, lo cual dificulta la reproducibilidad. Para contribuir a una mayor transparencia en el desarrollo de modelos de lenguaje de razonamiento, presentamos la serie MiroMind-M1, un conjunto de modelos de lenguaje de razonamiento completamente de código abierto construidos sobre la arquitectura Qwen-2.5, que igualan o superan el rendimiento de los modelos de código abierto existentes. Específicamente, nuestros modelos se entrenan en dos etapas: ajuste fino supervisado (SFT) en un corpus cuidadosamente seleccionado de 719K problemas de razonamiento matemático con trayectorias de razonamiento en cadena (CoT) verificadas, seguido de un entrenamiento de refuerzo con verificación (RLVR) en 62K problemas desafiantes y verificables. Para mejorar la robustez y eficiencia del proceso RLVR, introducimos la Optimización de Política Multi-Etapa Consciente del Contexto, un algoritmo que integra entrenamiento progresivo en longitud con una penalización de repetición adaptativa para fomentar un entrenamiento de refuerzo consciente del contexto. Nuestro modelo logra un rendimiento de vanguardia o competitivo y una eficiencia superior en tokens entre los modelos de código abierto basados en Qwen-2.5 de 7B y 32B en los benchmarks AIME24, AIME25 y MATH. Para facilitar la reproducibilidad, publicamos la pila completa: modelos (MiroMind-M1-SFT-7B, MiroMind-M1-RL-7B, MiroMind-M1-RL-32B); conjuntos de datos (MiroMind-M1-SFT-719K, MiroMind-M1-RL-62K); y todas las configuraciones de entrenamiento y evaluación. Esperamos que estos recursos apoyen investigaciones futuras y fomenten el avance de la comunidad.
English
Large language models have recently evolved from fluent text generation to
advanced reasoning across diverse domains, giving rise to reasoning language
models. Among these domains, mathematical reasoning serves as a representative
benchmark as it requires precise multi-step logic and abstract reasoning, which
can be generalized to other tasks. While closed-source RLMs such as GPT-o3
demonstrate impressive reasoning capabilities, their proprietary nature limits
transparency and reproducibility. Although many open-source projects aim to
close this gap, most of them lack sufficient openness by omitting critical
resources such as datasets and detailed training configurations, which hinders
reproducibility. To contribute toward greater transparency in RLM development,
we introduce the MiroMind-M1 series, a set of fully open-source RLMs built on
the Qwen-2.5 backbone that match or exceed the performance of existing
open-source RLMs. Specifically, our models are trained in two stages: SFT on a
carefully curated corpus of 719K math-reasoning problems with verified CoT
trajectories, followed by RLVR on 62K challenging and verifiable problems. To
enhance the robustness and efficiency of the RLVR process, we introduce
Context-Aware Multi-Stage Policy Optimization, an algorithm that integrates
length-progressive training with an adaptive repetition penalty to encourage
context-aware RL training. Our model achieves state-of-the-art or competitive
performance and superior token efficiency among Qwen-2.5-based open-source 7B
and 32B models on the AIME24, AIME25, and MATH benchmarks. To facilitate
reproducibility, we release the complete stack: models (MiroMind-M1-SFT-7B,
MiroMind-M1-RL-7B, MiroMind-M1-RL-32B); datasets (MiroMind-M1-SFT-719K,
MiroMind-M1-RL-62K); and all training and evaluation configurations. We hope
these resources will support further research and foster community advancement.