ChatPaper.aiChatPaper

MiMo-VL Technisch Rapport

MiMo-VL Technical Report

June 4, 2025
Auteurs: Xiaomi LLM-Core Team, Zihao Yue, Zhenru Lin, Yifan Song, Weikun Wang, Shuhuai Ren, Shuhao Gu, Shicheng Li, Peidian Li, Liang Zhao, Lei Li, Kainan Bao, Hao Tian, Hailin Zhang, Gang Wang, Dawei Zhu, Cici, Chenhong He, Bowen Ye, Bowen Shen, Zihan Zhang, Zihan Jiang, Zhixian Zheng, Zhichao Song, Zhenbo Luo, Yue Yu, Yudong Wang, Yuanyuan Tian, Yu Tu, Yihan Yan, Yi Huang, Xu Wang, Xinzhe Xu, Xingchen Song, Xing Zhang, Xing Yong, Xin Zhang, Xiangwei Deng, Wenyu Yang, Wenhan Ma, Weiwei Lv, Weiji Zhuang, Wei Liu, Sirui Deng, Shuo Liu, Shimao Chen, Shihua Yu, Shaohui Liu, Shande Wang, Rui Ma, Qiantong Wang, Peng Wang, Nuo Chen, Menghang Zhu, Kangyang Zhou, Kang Zhou, Kai Fang, Jun Shi, Jinhao Dong, Jiebao Xiao, Jiaming Xu, Huaqiu Liu, Hongshen Xu, Heng Qu, Haochen Zhao, Hanglong Lv, Guoan Wang, Duo Zhang, Dong Zhang, Di Zhang, Chong Ma, Chang Liu, Can Cai, Bingquan Xia
cs.AI

Samenvatting

We open-sourcen MiMo-VL-7B-SFT en MiMo-VL-7B-RL, twee krachtige vision-language-modellen die state-of-the-art prestaties leveren op het gebied van algemeen visueel begrip en multimodale redenering. MiMo-VL-7B-RL overtreft Qwen2.5-VL-7B op 35 van de 40 geëvalueerde taken en scoort 59.4 op OlympiadBench, waarmee het modellen met tot wel 78B parameters overstijgt. Voor GUI-grondingstoepassingen zet het een nieuwe standaard met een score van 56.1 op OSWorld-G, waarbij het zelfs gespecialiseerde modellen zoals UI-TARS overtreft. Onze training combineert vierfasen pre-training (2,4 biljoen tokens) met Mixed On-policy Reinforcement Learning (MORL) dat diverse beloningssignalen integreert. We benadrukken het belang van het opnemen van hoogwaardige redeneergegevens met lange Chain-of-Thought in de pre-trainingsfasen, en de voordelen van gemengde RL ondanks de uitdagingen bij gelijktijdige optimalisatie in meerdere domeinen. We dragen ook een uitgebreide evaluatiesuite bij die meer dan 50 taken omvat om reproduceerbaarheid te bevorderen en het vakgebied vooruit te helpen. De modelcheckpoints en de volledige evaluatiesuite zijn beschikbaar op https://github.com/XiaomiMiMo/MiMo-VL.
English
We open-source MiMo-VL-7B-SFT and MiMo-VL-7B-RL, two powerful vision-language models delivering state-of-the-art performance in both general visual understanding and multimodal reasoning. MiMo-VL-7B-RL outperforms Qwen2.5-VL-7B on 35 out of 40 evaluated tasks, and scores 59.4 on OlympiadBench, surpassing models with up to 78B parameters. For GUI grounding applications, it sets a new standard with 56.1 on OSWorld-G, even outperforming specialized models such as UI-TARS. Our training combines four-stage pre-training (2.4 trillion tokens) with Mixed On-policy Reinforcement Learning (MORL) integrating diverse reward signals. We identify the importance of incorporating high-quality reasoning data with long Chain-of-Thought into pre-training stages, and the benefits of mixed RL despite challenges in simultaneous multi-domain optimization. We also contribute a comprehensive evaluation suite covering 50+ tasks to promote reproducibility and advance the field. The model checkpoints and full evaluation suite are available at https://github.com/XiaomiMiMo/MiMo-VL.
PDF712June 5, 2025