MiMo: 言語モデルの推論能力を解き放つ ― 事前学習から事後学習へ
MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining
May 12, 2025
著者: Xiaomi LLM-Core Team, Bingquan Xia, Bowen Shen, Cici, Dawei Zhu, Di Zhang, Gang Wang, Hailin Zhang, Huaqiu Liu, Jiebao Xiao, Jinhao Dong, Liang Zhao, Peidian Li, Peng Wang, Shihua Yu, Shimao Chen, Weikun Wang, Wenhan Ma, Xiangwei Deng, Yi Huang, Yifan Song, Zihan Jiang, Bowen Ye, Can Cai, Chenhong He, Dong Zhang, Duo Zhang, Guoan Wang, Hao Tian, Haochen Zhao, Heng Qu, Hongshen Xu, Jun Shi, Kainan Bao, QingKai Fang, Kang Zhou, Kangyang Zhou, Lei Li, Menghang Zhu, Nuo Chen, Qiantong Wang, Shaohui Liu, Shicheng Li, Shuhao Gu, Shuhuai Ren, Shuo Liu, Sirui Deng, Weiji Zhuang, Weiwei Lv, Wenyu Yang, Xin Zhang, Xing Yong, Xing Zhang, Xingchen Song, Xinzhe Xu, Xu Wang, Yihan Yan, Yu Tu, Yuanyuan Tian, Yudong Wang, Yue Yu, Zhenru Lin, Zhichao Song, Zihao Yue
cs.AI
要旨
私たちは、推論タスクのために設計された大規模言語モデルMiMo-7Bを紹介します。このモデルは、事前学習と事後学習の両段階で最適化されています。事前学習段階では、データ前処理パイプラインを強化し、3段階のデータ混合戦略を採用することで、ベースモデルの推論能力を高めています。MiMo-7B-Baseは25兆トークンで事前学習され、追加のマルチトークン予測目標を用いて性能を向上させ、推論速度を加速させています。事後学習段階では、13万件の検証可能な数学およびプログラミング問題のデータセットをキュレーションし、テスト難易度に基づくコード報酬スキームを統合してスパース報酬問題を緩和し、戦略的なデータリサンプリングを用いて学習を安定化させています。広範な評価により、MiMo-7B-Baseは卓越した推論能力を持ち、32Bモデルを凌ぐ性能を示すことが確認されました。最終的なRLチューニングモデルであるMiMo-7B-RLは、数学、コード、および一般的な推論タスクにおいて優れた性能を発揮し、OpenAI o1-miniを上回る結果を達成しました。モデルのチェックポイントはhttps://github.com/xiaomimimo/MiMoで公開されています。
English
We present MiMo-7B, a large language model born for reasoning tasks, with
optimization across both pre-training and post-training stages. During
pre-training, we enhance the data preprocessing pipeline and employ a
three-stage data mixing strategy to strengthen the base model's reasoning
potential. MiMo-7B-Base is pre-trained on 25 trillion tokens, with additional
Multi-Token Prediction objective for enhanced performance and accelerated
inference speed. During post-training, we curate a dataset of 130K verifiable
mathematics and programming problems for reinforcement learning, integrating a
test-difficulty-driven code-reward scheme to alleviate sparse-reward issues and
employing strategic data resampling to stabilize training. Extensive
evaluations show that MiMo-7B-Base possesses exceptional reasoning potential,
outperforming even much larger 32B models. The final RL-tuned model,
MiMo-7B-RL, achieves superior performance on mathematics, code and general
reasoning tasks, surpassing the performance of OpenAI o1-mini. The model
checkpoints are available at https://github.com/xiaomimimo/MiMo.Summary
AI-Generated Summary