Rapport technique MiMo-VLMiMo-VL Technical Report
Nous rendons open-source MiMo-VL-7B-SFT et MiMo-VL-7B-RL, deux modèles puissants de vision et langage offrant des performances de pointe en compréhension visuelle générale et en raisonnement multimodal. MiMo-VL-7B-RL surpasse Qwen2.5-VL-7B sur 35 des 40 tâches évaluées et obtient un score de 59,4 sur OlympiadBench, dépassant des modèles comptant jusqu’à 78 milliards de paramètres. Pour les applications de repérage d’interfaces graphiques (GUI), il établit un nouveau standard avec un score de 56,1 sur OSWorld-G, surpassant même des modèles spécialisés tels que UI-TARS. Notre entraînement combine un pré-entraînement en quatre étapes (2,4 billions de tokens) avec un apprentissage par renforcement mixte sur politique (MORL) intégrant des signaux de récompense diversifiés. Nous identifions l’importance d’incorporer des données de raisonnement de haute qualité avec des chaînes de pensée longues dans les étapes de pré-entraînement, ainsi que les avantages du renforcement mixte malgré les défis liés à l’optimisation simultanée dans plusieurs domaines. Nous contribuons également à une suite d’évaluation complète couvrant plus de 50 tâches pour promouvoir la reproductibilité et faire avancer le domaine. Les points de contrôle des modèles et la suite d’évaluation complète sont disponibles à l’adresse https://github.com/XiaomiMiMo/MiMo-VL.