ChatPaper.aiChatPaper

MiMo : Libérer le potentiel de raisonnement des modèles de langage -- Du pré-entraînement au post-entraînement

MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining

May 12, 2025
Auteurs: Xiaomi LLM-Core Team, Bingquan Xia, Bowen Shen, Cici, Dawei Zhu, Di Zhang, Gang Wang, Hailin Zhang, Huaqiu Liu, Jiebao Xiao, Jinhao Dong, Liang Zhao, Peidian Li, Peng Wang, Shihua Yu, Shimao Chen, Weikun Wang, Wenhan Ma, Xiangwei Deng, Yi Huang, Yifan Song, Zihan Jiang, Bowen Ye, Can Cai, Chenhong He, Dong Zhang, Duo Zhang, Guoan Wang, Hao Tian, Haochen Zhao, Heng Qu, Hongshen Xu, Jun Shi, Kainan Bao, QingKai Fang, Kang Zhou, Kangyang Zhou, Lei Li, Menghang Zhu, Nuo Chen, Qiantong Wang, Shaohui Liu, Shicheng Li, Shuhao Gu, Shuhuai Ren, Shuo Liu, Sirui Deng, Weiji Zhuang, Weiwei Lv, Wenyu Yang, Xin Zhang, Xing Yong, Xing Zhang, Xingchen Song, Xinzhe Xu, Xu Wang, Yihan Yan, Yu Tu, Yuanyuan Tian, Yudong Wang, Yue Yu, Zhenru Lin, Zhichao Song, Zihao Yue
cs.AI

Résumé

Nous présentons MiMo-7B, un grand modèle de langage conçu pour les tâches de raisonnement, optimisé à la fois lors des étapes de pré-entraînement et de post-entraînement. Durant le pré-entraînement, nous améliorons le pipeline de prétraitement des données et utilisons une stratégie de mélange de données en trois étapes pour renforcer le potentiel de raisonnement du modèle de base. MiMo-7B-Base est pré-entraîné sur 25 billions de tokens, avec un objectif supplémentaire de prédiction multi-tokens pour améliorer les performances et accélérer la vitesse d'inférence. Lors du post-entraînement, nous constituons un ensemble de données de 130 000 problèmes vérifiables de mathématiques et de programmation pour l'apprentissage par renforcement, en intégrant un schéma de récompense basé sur la difficulté des tests pour atténuer les problèmes de récompense éparse, et en utilisant un rééchantillonnage stratégique des données pour stabiliser l'entraînement. Des évaluations approfondies montrent que MiMo-7B-Base possède un potentiel de raisonnement exceptionnel, surpassant même des modèles beaucoup plus grands de 32 milliards de paramètres. Le modèle final ajusté par apprentissage par renforcement, MiMo-7B-RL, obtient des performances supérieures en mathématiques, en code et en tâches de raisonnement général, dépassant les performances d'OpenAI o1-mini. Les points de contrôle du modèle sont disponibles à l'adresse https://github.com/xiaomimimo/MiMo.
English
We present MiMo-7B, a large language model born for reasoning tasks, with optimization across both pre-training and post-training stages. During pre-training, we enhance the data preprocessing pipeline and employ a three-stage data mixing strategy to strengthen the base model's reasoning potential. MiMo-7B-Base is pre-trained on 25 trillion tokens, with additional Multi-Token Prediction objective for enhanced performance and accelerated inference speed. During post-training, we curate a dataset of 130K verifiable mathematics and programming problems for reinforcement learning, integrating a test-difficulty-driven code-reward scheme to alleviate sparse-reward issues and employing strategic data resampling to stabilize training. Extensive evaluations show that MiMo-7B-Base possesses exceptional reasoning potential, outperforming even much larger 32B models. The final RL-tuned model, MiMo-7B-RL, achieves superior performance on mathematics, code and general reasoning tasks, surpassing the performance of OpenAI o1-mini. The model checkpoints are available at https://github.com/xiaomimimo/MiMo.

Summary

AI-Generated Summary

PDF535May 13, 2025