Rapporto Tecnico MiMo-VL
MiMo-VL Technical Report
June 4, 2025
Autori: Xiaomi LLM-Core Team, Zihao Yue, Zhenru Lin, Yifan Song, Weikun Wang, Shuhuai Ren, Shuhao Gu, Shicheng Li, Peidian Li, Liang Zhao, Lei Li, Kainan Bao, Hao Tian, Hailin Zhang, Gang Wang, Dawei Zhu, Cici, Chenhong He, Bowen Ye, Bowen Shen, Zihan Zhang, Zihan Jiang, Zhixian Zheng, Zhichao Song, Zhenbo Luo, Yue Yu, Yudong Wang, Yuanyuan Tian, Yu Tu, Yihan Yan, Yi Huang, Xu Wang, Xinzhe Xu, Xingchen Song, Xing Zhang, Xing Yong, Xin Zhang, Xiangwei Deng, Wenyu Yang, Wenhan Ma, Weiwei Lv, Weiji Zhuang, Wei Liu, Sirui Deng, Shuo Liu, Shimao Chen, Shihua Yu, Shaohui Liu, Shande Wang, Rui Ma, Qiantong Wang, Peng Wang, Nuo Chen, Menghang Zhu, Kangyang Zhou, Kang Zhou, Kai Fang, Jun Shi, Jinhao Dong, Jiebao Xiao, Jiaming Xu, Huaqiu Liu, Hongshen Xu, Heng Qu, Haochen Zhao, Hanglong Lv, Guoan Wang, Duo Zhang, Dong Zhang, Di Zhang, Chong Ma, Chang Liu, Can Cai, Bingquan Xia
cs.AI
Abstract
Rendiamo open-source MiMo-VL-7B-SFT e MiMo-VL-7B-RL, due potenti modelli visione-linguaggio che offrono prestazioni all'avanguardia sia nella comprensione visiva generale che nel ragionamento multimodale. MiMo-VL-7B-RL supera Qwen2.5-VL-7B in 35 su 40 task valutati e ottiene un punteggio di 59.4 su OlympiadBench, superando modelli con fino a 78 miliardi di parametri. Per le applicazioni di grounding delle interfacce grafiche, stabilisce un nuovo standard con 56.1 su OSWorld-G, superando persino modelli specializzati come UI-TARS. Il nostro addestramento combina una pre-training in quattro fasi (2.4 trilioni di token) con Mixed On-policy Reinforcement Learning (MORL) che integra segnali di reward diversificati. Identifichiamo l'importanza di incorporare dati di ragionamento di alta qualità con lunghe catene di pensiero (Chain-of-Thought) nelle fasi di pre-training, e i vantaggi del reinforcement learning misto nonostante le sfide nell'ottimizzazione simultanea in più domini. Contribuiamo inoltre con una suite di valutazione completa che copre oltre 50 task per promuovere la riproducibilità e far avanzare il campo. I checkpoint del modello e la suite completa di valutazione sono disponibili su https://github.com/XiaomiMiMo/MiMo-VL.
English
We open-source MiMo-VL-7B-SFT and MiMo-VL-7B-RL, two powerful vision-language
models delivering state-of-the-art performance in both general visual
understanding and multimodal reasoning. MiMo-VL-7B-RL outperforms Qwen2.5-VL-7B
on 35 out of 40 evaluated tasks, and scores 59.4 on OlympiadBench, surpassing
models with up to 78B parameters. For GUI grounding applications, it sets a new
standard with 56.1 on OSWorld-G, even outperforming specialized models such as
UI-TARS. Our training combines four-stage pre-training (2.4 trillion tokens)
with Mixed On-policy Reinforcement Learning (MORL) integrating diverse reward
signals. We identify the importance of incorporating high-quality reasoning
data with long Chain-of-Thought into pre-training stages, and the benefits of
mixed RL despite challenges in simultaneous multi-domain optimization. We also
contribute a comprehensive evaluation suite covering 50+ tasks to promote
reproducibility and advance the field. The model checkpoints and full
evaluation suite are available at https://github.com/XiaomiMiMo/MiMo-VL.