MiMo-VL技术报告MiMo-VL Technical Report
我们开源了MiMo-VL-7B-SFT和MiMo-VL-7B-RL两款强大的视觉-语言模型,它们在通用视觉理解和多模态推理任务中均展现出顶尖性能。MiMo-VL-7B-RL在40项评估任务中的35项上超越了Qwen2.5-VL-7B,并在OlympiadBench上取得了59.4的高分,超越了参数规模高达78B的模型。在GUI基础应用领域,它以56.1的分数在OSWorld-G上树立了新标杆,甚至超越了如UI-TARS等专用模型。我们的训练方法结合了四阶段预训练(2.4万亿tokens)与混合在线强化学习(MORL),整合了多样化的奖励信号。我们认识到在预训练阶段融入高质量推理数据及长链思维的重要性,以及混合RL在同步多领域优化挑战中的优势。此外,我们还贡献了一套覆盖50+任务的全面评估套件,以促进可复现性并推动领域发展。模型检查点及完整评估套件可在https://github.com/XiaomiMiMo/MiMo-VL获取。