MiroMind-M1: Открытая разработка в области математического мышления через контекстно-зависимую многоэтапную оптимизацию политик
MiroMind-M1: An Open-Source Advancement in Mathematical Reasoning via Context-Aware Multi-Stage Policy Optimization
July 19, 2025
Авторы: Xingxuan Li, Yao Xiao, Dianwen Ng, Hai Ye, Yue Deng, Xiang Lin, Bin Wang, Zhanfeng Mo, Chong Zhang, Yueyi Zhang, Zonglin Yang, Ruilin Li, Lei Lei, Shihao Xu, Han Zhao, Weiling Chen, Feng Ji, Lidong Bing
cs.AI
Аннотация
Крупные языковые модели недавно эволюционировали от генерации беглого текста к продвинутому рассуждению в различных областях, что привело к появлению моделей рассуждений (reasoning language models, RLMs). Среди этих областей математическое рассуждение служит репрезентативным бенчмарком, поскольку требует точной многошаговой логики и абстрактного мышления, что может быть обобщено для других задач. Хотя закрытые RLMs, такие как GPT-o3, демонстрируют впечатляющие способности к рассуждению, их проприетарная природа ограничивает прозрачность и воспроизводимость. Хотя многие проекты с открытым исходным кодом стремятся сократить этот разрыв, большинство из них недостаточно открыты, исключая критические ресурсы, такие как наборы данных и детальные конфигурации обучения, что затрудняет воспроизводимость. Чтобы внести вклад в повышение прозрачности разработки RLMs, мы представляем серию MiroMind-M1 — набор полностью открытых RLMs, построенных на основе Qwen-2.5, которые соответствуют или превосходят производительность существующих открытых RLMs. В частности, наши модели обучаются в два этапа: SFT на тщательно отобранном корпусе из 719K задач математического рассуждения с проверенными траекториями CoT, за которым следует RLVR на 62K сложных и проверяемых задач. Для повышения устойчивости и эффективности процесса RLVR мы представляем алгоритм Context-Aware Multi-Stage Policy Optimization, который интегрирует прогрессивное обучение по длине с адаптивным штрафом за повторение, чтобы стимулировать контекстно-зависимое обучение с подкреплением. Наша модель достигает передовой или конкурентоспособной производительности и превосходной эффективности использования токенов среди открытых моделей на основе Qwen-2.5 с 7B и 32B параметрами на бенчмарках AIME24, AIME25 и MATH. Для обеспечения воспроизводимости мы публикуем полный стек: модели (MiroMind-M1-SFT-7B, MiroMind-M1-RL-7B, MiroMind-M1-RL-32B); наборы данных (MiroMind-M1-SFT-719K, MiroMind-M1-RL-62K); и все конфигурации обучения и оценки. Мы надеемся, что эти ресурсы поддержат дальнейшие исследования и будут способствовать развитию сообщества.
English
Large language models have recently evolved from fluent text generation to
advanced reasoning across diverse domains, giving rise to reasoning language
models. Among these domains, mathematical reasoning serves as a representative
benchmark as it requires precise multi-step logic and abstract reasoning, which
can be generalized to other tasks. While closed-source RLMs such as GPT-o3
demonstrate impressive reasoning capabilities, their proprietary nature limits
transparency and reproducibility. Although many open-source projects aim to
close this gap, most of them lack sufficient openness by omitting critical
resources such as datasets and detailed training configurations, which hinders
reproducibility. To contribute toward greater transparency in RLM development,
we introduce the MiroMind-M1 series, a set of fully open-source RLMs built on
the Qwen-2.5 backbone that match or exceed the performance of existing
open-source RLMs. Specifically, our models are trained in two stages: SFT on a
carefully curated corpus of 719K math-reasoning problems with verified CoT
trajectories, followed by RLVR on 62K challenging and verifiable problems. To
enhance the robustness and efficiency of the RLVR process, we introduce
Context-Aware Multi-Stage Policy Optimization, an algorithm that integrates
length-progressive training with an adaptive repetition penalty to encourage
context-aware RL training. Our model achieves state-of-the-art or competitive
performance and superior token efficiency among Qwen-2.5-based open-source 7B
and 32B models on the AIME24, AIME25, and MATH benchmarks. To facilitate
reproducibility, we release the complete stack: models (MiroMind-M1-SFT-7B,
MiroMind-M1-RL-7B, MiroMind-M1-RL-32B); datasets (MiroMind-M1-SFT-719K,
MiroMind-M1-RL-62K); and all training and evaluation configurations. We hope
these resources will support further research and foster community advancement.