MiMo-VL技術レポート
MiMo-VL Technical Report
June 4, 2025
著者: Xiaomi LLM-Core Team, Zihao Yue, Zhenru Lin, Yifan Song, Weikun Wang, Shuhuai Ren, Shuhao Gu, Shicheng Li, Peidian Li, Liang Zhao, Lei Li, Kainan Bao, Hao Tian, Hailin Zhang, Gang Wang, Dawei Zhu, Cici, Chenhong He, Bowen Ye, Bowen Shen, Zihan Zhang, Zihan Jiang, Zhixian Zheng, Zhichao Song, Zhenbo Luo, Yue Yu, Yudong Wang, Yuanyuan Tian, Yu Tu, Yihan Yan, Yi Huang, Xu Wang, Xinzhe Xu, Xingchen Song, Xing Zhang, Xing Yong, Xin Zhang, Xiangwei Deng, Wenyu Yang, Wenhan Ma, Weiwei Lv, Weiji Zhuang, Wei Liu, Sirui Deng, Shuo Liu, Shimao Chen, Shihua Yu, Shaohui Liu, Shande Wang, Rui Ma, Qiantong Wang, Peng Wang, Nuo Chen, Menghang Zhu, Kangyang Zhou, Kang Zhou, Kai Fang, Jun Shi, Jinhao Dong, Jiebao Xiao, Jiaming Xu, Huaqiu Liu, Hongshen Xu, Heng Qu, Haochen Zhao, Hanglong Lv, Guoan Wang, Duo Zhang, Dong Zhang, Di Zhang, Chong Ma, Chang Liu, Can Cai, Bingquan Xia
cs.AI
要旨
私たちは、MiMo-VL-7B-SFTとMiMo-VL-7B-RLという2つの強力な視覚言語モデルをオープンソース化しました。これらのモデルは、一般的な視覚理解とマルチモーダル推論の両方において、最先端の性能を発揮します。MiMo-VL-7B-RLは、評価された40タスクのうち35タスクでQwen2.5-VL-7Bを上回り、OlympiadBenchでは59.4のスコアを記録し、最大78Bパラメータのモデルをも凌駕します。GUIグラウンディングアプリケーションでは、OSWorld-Gで56.1を達成し、UI-TARSのような専門モデルをも上回る新たな基準を確立しました。私たちのトレーニングは、4段階の事前学習(2.4兆トークン)と、多様な報酬信号を統合したMixed On-policy Reinforcement Learning(MORL)を組み合わせています。高品質な推論データと長いChain-of-Thoughtを事前学習段階に組み込むことの重要性、および同時多領域最適化の課題にもかかわらず混合RLの利点を明らかにしました。また、再現性を促進し、分野を進歩させるために、50以上のタスクをカバーする包括的な評価スイートを提供します。モデルのチェックポイントと完全な評価スイートは、https://github.com/XiaomiMiMo/MiMo-VL で利用可能です。
English
We open-source MiMo-VL-7B-SFT and MiMo-VL-7B-RL, two powerful vision-language
models delivering state-of-the-art performance in both general visual
understanding and multimodal reasoning. MiMo-VL-7B-RL outperforms Qwen2.5-VL-7B
on 35 out of 40 evaluated tasks, and scores 59.4 on OlympiadBench, surpassing
models with up to 78B parameters. For GUI grounding applications, it sets a new
standard with 56.1 on OSWorld-G, even outperforming specialized models such as
UI-TARS. Our training combines four-stage pre-training (2.4 trillion tokens)
with Mixed On-policy Reinforcement Learning (MORL) integrating diverse reward
signals. We identify the importance of incorporating high-quality reasoning
data with long Chain-of-Thought into pre-training stages, and the benefits of
mixed RL despite challenges in simultaneous multi-domain optimization. We also
contribute a comprehensive evaluation suite covering 50+ tasks to promote
reproducibility and advance the field. The model checkpoints and full
evaluation suite are available at https://github.com/XiaomiMiMo/MiMo-VL.