Informe Técnico de MiMo-VLMiMo-VL Technical Report
Hemos liberado el código de MiMo-VL-7B-SFT y MiMo-VL-7B-RL, dos potentes modelos de visión y lenguaje que ofrecen un rendimiento de vanguardia tanto en comprensión visual general como en razonamiento multimodal. MiMo-VL-7B-RL supera a Qwen2.5-VL-7B en 35 de las 40 tareas evaluadas y obtiene una puntuación de 59.4 en OlympiadBench, superando a modelos con hasta 78B parámetros. Para aplicaciones de anclaje en interfaces gráficas, establece un nuevo estándar con 56.1 en OSWorld-G, superando incluso a modelos especializados como UI-TARS. Nuestro entrenamiento combina un preentrenamiento en cuatro etapas (2.4 billones de tokens) con Aprendizaje por Refuerzo Mixto On-policy (MORL) que integra diversas señales de recompensa. Identificamos la importancia de incorporar datos de razonamiento de alta calidad con Cadenas de Pensamiento largas en las etapas de preentrenamiento, así como los beneficios del aprendizaje por refuerzo mixto a pesar de los desafíos en la optimización simultánea de múltiples dominios. También contribuimos con una suite de evaluación integral que cubre más de 50 tareas para promover la reproducibilidad y avanzar en el campo. Los puntos de control del modelo y la suite de evaluación completa están disponibles en https://github.com/XiaomiMiMo/MiMo-VL.