Rapporto Tecnico Ovis2.5

Abstract

Presentiamo Ovis2.5, un successore di Ovis2 progettato per la percezione visiva a risoluzione nativa e un forte ragionamento multimodale. Ovis2.5 integra un vision transformer a risoluzione nativa che elabora le immagini alle loro risoluzioni native e variabili, evitando il degrado causato dalla suddivisione in riquadri a risoluzione fissa e preservando sia i dettagli fini che il layout globale — elementi cruciali per contenuti visivamente densi come grafici complessi. Per potenziare il ragionamento, addestriamo il modello a superare il ragionamento a catena lineare e a eseguire riflessioni, inclusa l'autoverifica e la revisione. Questa capacità avanzata è esposta come una modalità opzionale di "pensiero" durante l'inferenza, consentendo agli utenti di scambiare la latenza con una maggiore accuratezza su input difficili. Il modello è addestrato attraverso un curriculum completo in cinque fasi che costruisce progressivamente le sue competenze. Il processo inizia con un pre-addestramento visivo e multimodale di base, prosegue con un tuning su larga scala delle istruzioni e culmina con il miglioramento dell'allineamento e del ragionamento utilizzando DPO e GRPO. Per scalare questi aggiornamenti in modo efficiente, utilizziamo il packing di dati multimodali e il parallelismo ibrido, ottenendo un significativo miglioramento end-to-end della velocità. Rilasciamo due modelli open-source: Ovis2.5-9B e Ovis2.5-2B. Quest'ultimo continua la filosofia "piccolo modello, grandi prestazioni" di Ovis2, rendendolo ideale per scenari con risorse limitate e su dispositivo. Nella classifica multimodale di OpenCompass, Ovis2.5-9B ottiene una media di 78.3, segnando un sostanziale miglioramento rispetto al suo predecessore, Ovis2-8B, e raggiungendo risultati all'avanguardia tra i MLLM open-source nel range di parametri sotto i 40B; Ovis2.5-2B ottiene un punteggio di 73.9, stabilendo lo stato dell'arte per la sua dimensione. Oltre ai punteggi aggregati, Ovis2.5 raggiunge risultati leader nei benchmark STEM, mostra forti capacità nei task di grounding e video e ottiene lo stato dell'arte open-source alla sua scala per l'analisi di grafici complessi.

English

We present Ovis2.5, a successor to Ovis2 designed for native-resolution visual perception and strong multimodal reasoning. Ovis2.5 integrates a native-resolution vision transformer that processes images at their native, variable resolutions, avoiding the degradation from fixed-resolution tiling and preserving both fine detail and global layout -- crucial for visually dense content like complex charts. To strengthen reasoning, we train the model to move beyond linear chain-of-thought and perform reflection -- including self-checking and revision. This advanced capability is exposed as an optional "thinking mode" at inference time, allowing users to trade latency for enhanced accuracy on difficult inputs. The model is trained via a comprehensive five-phase curriculum that progressively builds its skills. The process begins with foundational visual and multimodal pretraining, advances through large-scale instruction tuning, and culminates in alignment and reasoning enhancement using DPO and GRPO. To scale these upgrades efficiently, we employ multimodal data packing and hybrid parallelism, yielding a significant end-to-end speedup. We release two open-source models: Ovis2.5-9B and Ovis2.5-2B. The latter continues the "small model, big performance" philosophy of Ovis2, making it ideal for resource-constrained, on-device scenarios. On the OpenCompass multimodal leaderboard, Ovis2.5-9B averages 78.3, marking a substantial improvement over its predecessor, Ovis2-8B, and achieving state-of-the-art results among open-source MLLMs in the sub-40B parameter range; Ovis2.5-2B scores 73.9, establishing SOTA for its size. Beyond aggregate scores, Ovis2.5 achieves leading results on STEM benchmarks, exhibits strong capabilities on grounding and video tasks, and achieves open-source SOTA at its scale for complex chart analysis.

Rapporto Tecnico Ovis2.5

Ovis2.5 Technical Report

Abstract

Support