MiMo-VL Technischer BerichtMiMo-VL Technical Report
Wir veröffentlichen MiMo-VL-7B-SFT und MiMo-VL-7B-RL als Open Source, zwei leistungsstarke Vision-Language-Modelle, die state-of-the-art Leistung sowohl im allgemeinen visuellen Verständnis als auch im multimodalen Reasoning bieten. MiMo-VL-7B-RL übertrifft Qwen2.5-VL-7B in 35 von 40 evaluierten Aufgaben und erreicht 59,4 Punkte auf dem OlympiadBench, womit es Modelle mit bis zu 78B Parametern übertrifft. Für GUI-Grounding-Anwendungen setzt es mit 56,1 Punkten auf OSWorld-G einen neuen Standard und übertrifft sogar spezialisierte Modelle wie UI-TARS. Unser Training kombiniert ein vierstufiges Pre-Training (2,4 Billionen Tokens) mit Mixed On-policy Reinforcement Learning (MORL), das diverse Belohnungssignale integriert. Wir identifizieren die Bedeutung der Einbindung hochwertiger Reasoning-Daten mit langen Chain-of-Thought in die Pre-Training-Phasen sowie die Vorteile von gemischtem RL trotz der Herausforderungen bei der gleichzeitigen Optimierung über mehrere Domänen hinweg. Zudem tragen wir mit einem umfassenden Evaluationssuite, die über 50 Aufgaben abdeckt, zur Reproduzierbarkeit und Weiterentwicklung des Feldes bei. Die Modell-Checkpoints und die vollständige Evaluationssuite sind unter https://github.com/XiaomiMiMo/MiMo-VL verfügbar.