MiMo-VL技術報告MiMo-VL Technical Report
我們開源了MiMo-VL-7B-SFT和MiMo-VL-7B-RL,這兩款強大的視覺語言模型在通用視覺理解和多模態推理方面均展現了頂尖性能。MiMo-VL-7B-RL在40項評估任務中的35項上超越了Qwen2.5-VL-7B,並在OlympiadBench上取得了59.4分,超越了參數高達78B的模型。在GUI基礎應用方面,它以56.1分在OSWorld-G上設立了新標準,甚至超越了如UI-TARS等專用模型。我們的訓練結合了四階段預訓練(2.4萬億標記)與混合在線強化學習(MORL),整合了多樣化的獎勵信號。我們發現,在預訓練階段融入高質量推理數據及長鏈思維的重要性,以及混合RL在同步多領域優化挑戰中的益處。此外,我們貢獻了一個涵蓋50多項任務的全面評估套件,以促進可重複性並推動該領域的發展。模型檢查點及完整評估套件可在https://github.com/XiaomiMiMo/MiMo-VL獲取。