Informe Técnico de Ovis2.5

Resumen

Presentamos Ovis2.5, un sucesor de Ovis2 diseñado para percepción visual en resolución nativa y razonamiento multimodal robusto. Ovis2.5 integra un vision transformer de resolución nativa que procesa imágenes en sus resoluciones variables originales, evitando la degradación causada por el mosaico de resolución fija y preservando tanto los detalles finos como la disposición global, aspectos cruciales para contenido visualmente denso como gráficos complejos. Para fortalecer el razonamiento, entrenamos al modelo para ir más allá del pensamiento lineal en cadena y realizar reflexión, incluyendo autoverificación y revisión. Esta capacidad avanzada se expone como un "modo de pensamiento" opcional durante la inferencia, permitiendo a los usuarios intercambiar latencia por mayor precisión en entradas difíciles. El modelo se entrena mediante un currículo integral de cinco fases que construye progresivamente sus habilidades. El proceso comienza con un preentrenamiento visual y multimodal básico, avanza a través de ajuste de instrucciones a gran escala, y culmina en alineación y mejora del razonamiento utilizando DPO y GRPO. Para escalar estas mejoras de manera eficiente, empleamos empaquetado de datos multimodal y paralelismo híbrido, logrando una aceleración significativa de extremo a extremo. Lanzamos dos modelos de código abierto: Ovis2.5-9B y Ovis2.5-2B. Este último continúa la filosofía de "modelo pequeño, gran rendimiento" de Ovis2, haciéndolo ideal para escenarios con recursos limitados y en dispositivos. En el ranking multimodal OpenCompass, Ovis2.5-9B promedia 78.3, marcando una mejora sustancial sobre su predecesor, Ovis2-8B, y alcanzando resultados de vanguardia entre los MLLMs de código abierto en el rango de menos de 40B parámetros; Ovis2.5-2B obtiene 73.9, estableciendo un estado del arte (SOTA) para su tamaño. Más allá de las puntuaciones agregadas, Ovis2.5 logra resultados líderes en benchmarks STEM, exhibe capacidades sólidas en tareas de anclaje y video, y alcanza el SOTA de código abierto a su escala para el análisis de gráficos complejos.

English

We present Ovis2.5, a successor to Ovis2 designed for native-resolution visual perception and strong multimodal reasoning. Ovis2.5 integrates a native-resolution vision transformer that processes images at their native, variable resolutions, avoiding the degradation from fixed-resolution tiling and preserving both fine detail and global layout -- crucial for visually dense content like complex charts. To strengthen reasoning, we train the model to move beyond linear chain-of-thought and perform reflection -- including self-checking and revision. This advanced capability is exposed as an optional "thinking mode" at inference time, allowing users to trade latency for enhanced accuracy on difficult inputs. The model is trained via a comprehensive five-phase curriculum that progressively builds its skills. The process begins with foundational visual and multimodal pretraining, advances through large-scale instruction tuning, and culminates in alignment and reasoning enhancement using DPO and GRPO. To scale these upgrades efficiently, we employ multimodal data packing and hybrid parallelism, yielding a significant end-to-end speedup. We release two open-source models: Ovis2.5-9B and Ovis2.5-2B. The latter continues the "small model, big performance" philosophy of Ovis2, making it ideal for resource-constrained, on-device scenarios. On the OpenCompass multimodal leaderboard, Ovis2.5-9B averages 78.3, marking a substantial improvement over its predecessor, Ovis2-8B, and achieving state-of-the-art results among open-source MLLMs in the sub-40B parameter range; Ovis2.5-2B scores 73.9, establishing SOTA for its size. Beyond aggregate scores, Ovis2.5 achieves leading results on STEM benchmarks, exhibits strong capabilities on grounding and video tasks, and achieves open-source SOTA at its scale for complex chart analysis.

Informe Técnico de Ovis2.5

Ovis2.5 Technical Report

Resumen

Support