ChatPaper.aiChatPaper

MiroMind-M1: Открытая разработка в области математического мышления через контекстно-зависимую многоэтапную оптимизацию политик

MiroMind-M1: An Open-Source Advancement in Mathematical Reasoning via Context-Aware Multi-Stage Policy Optimization

July 19, 2025
Авторы: Xingxuan Li, Yao Xiao, Dianwen Ng, Hai Ye, Yue Deng, Xiang Lin, Bin Wang, Zhanfeng Mo, Chong Zhang, Yueyi Zhang, Zonglin Yang, Ruilin Li, Lei Lei, Shihao Xu, Han Zhao, Weiling Chen, Feng Ji, Lidong Bing
cs.AI

Аннотация

Крупные языковые модели недавно эволюционировали от генерации беглого текста к продвинутому рассуждению в различных областях, что привело к появлению моделей рассуждений (reasoning language models, RLMs). Среди этих областей математическое рассуждение служит репрезентативным бенчмарком, поскольку требует точной многошаговой логики и абстрактного мышления, что может быть обобщено для других задач. Хотя закрытые RLMs, такие как GPT-o3, демонстрируют впечатляющие способности к рассуждению, их проприетарная природа ограничивает прозрачность и воспроизводимость. Хотя многие проекты с открытым исходным кодом стремятся сократить этот разрыв, большинство из них недостаточно открыты, исключая критические ресурсы, такие как наборы данных и детальные конфигурации обучения, что затрудняет воспроизводимость. Чтобы внести вклад в повышение прозрачности разработки RLMs, мы представляем серию MiroMind-M1 — набор полностью открытых RLMs, построенных на основе Qwen-2.5, которые соответствуют или превосходят производительность существующих открытых RLMs. В частности, наши модели обучаются в два этапа: SFT на тщательно отобранном корпусе из 719K задач математического рассуждения с проверенными траекториями CoT, за которым следует RLVR на 62K сложных и проверяемых задач. Для повышения устойчивости и эффективности процесса RLVR мы представляем алгоритм Context-Aware Multi-Stage Policy Optimization, который интегрирует прогрессивное обучение по длине с адаптивным штрафом за повторение, чтобы стимулировать контекстно-зависимое обучение с подкреплением. Наша модель достигает передовой или конкурентоспособной производительности и превосходной эффективности использования токенов среди открытых моделей на основе Qwen-2.5 с 7B и 32B параметрами на бенчмарках AIME24, AIME25 и MATH. Для обеспечения воспроизводимости мы публикуем полный стек: модели (MiroMind-M1-SFT-7B, MiroMind-M1-RL-7B, MiroMind-M1-RL-32B); наборы данных (MiroMind-M1-SFT-719K, MiroMind-M1-RL-62K); и все конфигурации обучения и оценки. Мы надеемся, что эти ресурсы поддержат дальнейшие исследования и будут способствовать развитию сообщества.
English
Large language models have recently evolved from fluent text generation to advanced reasoning across diverse domains, giving rise to reasoning language models. Among these domains, mathematical reasoning serves as a representative benchmark as it requires precise multi-step logic and abstract reasoning, which can be generalized to other tasks. While closed-source RLMs such as GPT-o3 demonstrate impressive reasoning capabilities, their proprietary nature limits transparency and reproducibility. Although many open-source projects aim to close this gap, most of them lack sufficient openness by omitting critical resources such as datasets and detailed training configurations, which hinders reproducibility. To contribute toward greater transparency in RLM development, we introduce the MiroMind-M1 series, a set of fully open-source RLMs built on the Qwen-2.5 backbone that match or exceed the performance of existing open-source RLMs. Specifically, our models are trained in two stages: SFT on a carefully curated corpus of 719K math-reasoning problems with verified CoT trajectories, followed by RLVR on 62K challenging and verifiable problems. To enhance the robustness and efficiency of the RLVR process, we introduce Context-Aware Multi-Stage Policy Optimization, an algorithm that integrates length-progressive training with an adaptive repetition penalty to encourage context-aware RL training. Our model achieves state-of-the-art or competitive performance and superior token efficiency among Qwen-2.5-based open-source 7B and 32B models on the AIME24, AIME25, and MATH benchmarks. To facilitate reproducibility, we release the complete stack: models (MiroMind-M1-SFT-7B, MiroMind-M1-RL-7B, MiroMind-M1-RL-32B); datasets (MiroMind-M1-SFT-719K, MiroMind-M1-RL-62K); and all training and evaluation configurations. We hope these resources will support further research and foster community advancement.
PDF1081July 22, 2025