ChatPaper.aiChatPaper

MiMo: Раскрытие потенциала языковых моделей в логических рассуждениях — от предварительного обучения до постобработки

MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining

May 12, 2025
Авторы: Xiaomi LLM-Core Team, Bingquan Xia, Bowen Shen, Cici, Dawei Zhu, Di Zhang, Gang Wang, Hailin Zhang, Huaqiu Liu, Jiebao Xiao, Jinhao Dong, Liang Zhao, Peidian Li, Peng Wang, Shihua Yu, Shimao Chen, Weikun Wang, Wenhan Ma, Xiangwei Deng, Yi Huang, Yifan Song, Zihan Jiang, Bowen Ye, Can Cai, Chenhong He, Dong Zhang, Duo Zhang, Guoan Wang, Hao Tian, Haochen Zhao, Heng Qu, Hongshen Xu, Jun Shi, Kainan Bao, QingKai Fang, Kang Zhou, Kangyang Zhou, Lei Li, Menghang Zhu, Nuo Chen, Qiantong Wang, Shaohui Liu, Shicheng Li, Shuhao Gu, Shuhuai Ren, Shuo Liu, Sirui Deng, Weiji Zhuang, Weiwei Lv, Wenyu Yang, Xin Zhang, Xing Yong, Xing Zhang, Xingchen Song, Xinzhe Xu, Xu Wang, Yihan Yan, Yu Tu, Yuanyuan Tian, Yudong Wang, Yue Yu, Zhenru Lin, Zhichao Song, Zihao Yue
cs.AI

Аннотация

Представляем MiMo-7B, крупную языковую модель, созданную для задач логического рассуждения, с оптимизацией на этапах как предварительного, так и последующего обучения. В процессе предварительного обучения мы улучшили конвейер предобработки данных и применили трехэтапную стратегию смешивания данных для усиления потенциала базовой модели в решении логических задач. MiMo-7B-Base была предварительно обучена на 25 триллионах токенов с дополнительной целью Multi-Token Prediction для повышения производительности и ускорения скорости вывода. На этапе последующего обучения мы подготовили набор данных из 130 тысяч проверяемых задач по математике и программированию для обучения с подкреплением, интегрировав схему вознаграждения на основе сложности тестов для смягчения проблемы разреженного вознаграждения и применив стратегическое повторное сэмплирование данных для стабилизации обучения. Обширные оценки показывают, что MiMo-7B-Base обладает исключительным потенциалом для логического рассуждения, превосходя даже значительно более крупные модели объемом 32B. Финальная модель, настроенная с помощью обучения с подкреплением, MiMo-7B-RL, демонстрирует превосходные результаты в задачах по математике, программированию и общему логическому рассуждению, превосходя производительность OpenAI o1-mini. Чекпоинты модели доступны по адресу https://github.com/xiaomimimo/MiMo.
English
We present MiMo-7B, a large language model born for reasoning tasks, with optimization across both pre-training and post-training stages. During pre-training, we enhance the data preprocessing pipeline and employ a three-stage data mixing strategy to strengthen the base model's reasoning potential. MiMo-7B-Base is pre-trained on 25 trillion tokens, with additional Multi-Token Prediction objective for enhanced performance and accelerated inference speed. During post-training, we curate a dataset of 130K verifiable mathematics and programming problems for reinforcement learning, integrating a test-difficulty-driven code-reward scheme to alleviate sparse-reward issues and employing strategic data resampling to stabilize training. Extensive evaluations show that MiMo-7B-Base possesses exceptional reasoning potential, outperforming even much larger 32B models. The final RL-tuned model, MiMo-7B-RL, achieves superior performance on mathematics, code and general reasoning tasks, surpassing the performance of OpenAI o1-mini. The model checkpoints are available at https://github.com/xiaomimimo/MiMo.

Summary

AI-Generated Summary

PDF535May 13, 2025