MiMo-VL技術レポートMiMo-VL Technical Report
私たちは、MiMo-VL-7B-SFTとMiMo-VL-7B-RLという2つの強力な視覚言語モデルをオープンソース化しました。これらのモデルは、一般的な視覚理解とマルチモーダル推論の両方において、最先端の性能を発揮します。MiMo-VL-7B-RLは、評価された40タスクのうち35タスクでQwen2.5-VL-7Bを上回り、OlympiadBenchでは59.4のスコアを記録し、最大78Bパラメータのモデルをも凌駕します。GUIグラウンディングアプリケーションでは、OSWorld-Gで56.1を達成し、UI-TARSのような専門モデルをも上回る新たな基準を確立しました。私たちのトレーニングは、4段階の事前学習(2.4兆トークン)と、多様な報酬信号を統合したMixed On-policy Reinforcement Learning(MORL)を組み合わせています。高品質な推論データと長いChain-of-Thoughtを事前学習段階に組み込むことの重要性、および同時多領域最適化の課題にもかかわらず混合RLの利点を明らかにしました。また、再現性を促進し、分野を進歩させるために、50以上のタスクをカバーする包括的な評価スイートを提供します。モデルのチェックポイントと完全な評価スイートは、https://github.com/XiaomiMiMo/MiMo-VL で利用可能です。