MiMo: Desbloqueando o Potencial de Raciocínio dos Modelos de Linguagem - Do Pré-treinamento ao Pós-treinamento
MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining
May 12, 2025
Autores: Xiaomi LLM-Core Team, Bingquan Xia, Bowen Shen, Cici, Dawei Zhu, Di Zhang, Gang Wang, Hailin Zhang, Huaqiu Liu, Jiebao Xiao, Jinhao Dong, Liang Zhao, Peidian Li, Peng Wang, Shihua Yu, Shimao Chen, Weikun Wang, Wenhan Ma, Xiangwei Deng, Yi Huang, Yifan Song, Zihan Jiang, Bowen Ye, Can Cai, Chenhong He, Dong Zhang, Duo Zhang, Guoan Wang, Hao Tian, Haochen Zhao, Heng Qu, Hongshen Xu, Jun Shi, Kainan Bao, QingKai Fang, Kang Zhou, Kangyang Zhou, Lei Li, Menghang Zhu, Nuo Chen, Qiantong Wang, Shaohui Liu, Shicheng Li, Shuhao Gu, Shuhuai Ren, Shuo Liu, Sirui Deng, Weiji Zhuang, Weiwei Lv, Wenyu Yang, Xin Zhang, Xing Yong, Xing Zhang, Xingchen Song, Xinzhe Xu, Xu Wang, Yihan Yan, Yu Tu, Yuanyuan Tian, Yudong Wang, Yue Yu, Zhenru Lin, Zhichao Song, Zihao Yue
cs.AI
Resumo
Apresentamos o MiMo-7B, um modelo de linguagem de grande escala projetado para tarefas de raciocínio, com otimização em ambas as etapas de pré-treinamento e pós-treinamento. Durante o pré-treinamento, aprimoramos o pipeline de pré-processamento de dados e empregamos uma estratégia de mistura de dados em três estágios para fortalecer o potencial de raciocínio do modelo base. O MiMo-7B-Base foi pré-treinado em 25 trilhões de tokens, com o objetivo adicional de Predição Multi-Token para melhorar o desempenho e acelerar a velocidade de inferência. Durante o pós-treinamento, curamos um conjunto de dados com 130 mil problemas verificáveis de matemática e programação para aprendizado por reforço, integrando um esquema de recompensa baseado na dificuldade do teste para mitigar problemas de recompensa esparsa e empregando reamostragem estratégica de dados para estabilizar o treinamento. Avaliações extensivas mostram que o MiMo-7B-Base possui um potencial excepcional de raciocínio, superando até mesmo modelos muito maiores de 32B. O modelo final ajustado por RL, MiMo-7B-RL, alcança desempenho superior em tarefas de matemática, código e raciocínio geral, superando o desempenho do OpenAI o1-mini. Os checkpoints do modelo estão disponíveis em https://github.com/xiaomimimo/MiMo.
English
We present MiMo-7B, a large language model born for reasoning tasks, with
optimization across both pre-training and post-training stages. During
pre-training, we enhance the data preprocessing pipeline and employ a
three-stage data mixing strategy to strengthen the base model's reasoning
potential. MiMo-7B-Base is pre-trained on 25 trillion tokens, with additional
Multi-Token Prediction objective for enhanced performance and accelerated
inference speed. During post-training, we curate a dataset of 130K verifiable
mathematics and programming problems for reinforcement learning, integrating a
test-difficulty-driven code-reward scheme to alleviate sparse-reward issues and
employing strategic data resampling to stabilize training. Extensive
evaluations show that MiMo-7B-Base possesses exceptional reasoning potential,
outperforming even much larger 32B models. The final RL-tuned model,
MiMo-7B-RL, achieves superior performance on mathematics, code and general
reasoning tasks, surpassing the performance of OpenAI o1-mini. The model
checkpoints are available at https://github.com/xiaomimimo/MiMo.