Ovis2.5 Technisch Rapport

Samenvatting

We presenteren Ovis2.5, een opvolger van Ovis2 die is ontworpen voor visuele waarneming op native resolutie en sterke multimodale redeneervaardigheden. Ovis2.5 integreert een vision transformer op native resolutie die afbeeldingen verwerkt op hun oorspronkelijke, variabele resoluties, waardoor degradatie door vaste-resolutie tiling wordt vermeden en zowel fijne details als de globale lay-out behouden blijven — cruciaal voor visueel dichte inhoud zoals complexe grafieken. Om het redeneren te versterken, trainen we het model om verder te gaan dan lineaire chain-of-thought en reflectie uit te voeren — inclusief zelfcontrole en revisie. Deze geavanceerde mogelijkheid wordt blootgesteld als een optionele "denkmodus" tijdens inferentie, waardoor gebruikers latentie kunnen inruilen voor verbeterde nauwkeurigheid bij moeilijke invoer. Het model wordt getraind via een uitgebreid vijf-fasen curriculum dat zijn vaardigheden geleidelijk opbouwt. Het proces begint met fundamentele visuele en multimodale voorpretraining, gaat verder met grootschalige instructieafstemming en eindigt met uitlijning en redeneerverbetering met behulp van DPO en GRPO. Om deze upgrades efficiënt te schalen, gebruiken we multimodale datapacking en hybride parallellisatie, wat resulteert in een aanzienlijke end-to-end versnelling. We brengen twee open-source modellen uit: Ovis2.5-9B en Ovis2.5-2B. De laatste zet de filosofie van "klein model, grote prestaties" van Ovis2 voort, waardoor het ideaal is voor scenario's met beperkte middelen, zoals op apparaten. Op het OpenCompass multimodale leaderboard scoort Ovis2.5-9B gemiddeld 78.3, wat een aanzienlijke verbetering is ten opzichte van zijn voorganger, Ovis2-8B, en state-of-the-art resultaten behaalt onder open-source MLLM's in het sub-40B parameterbereik; Ovis2.5-2B scoort 73.9, wat SOTA is voor zijn grootte. Naast de algemene scores behaalt Ovis2.5 toonaangevende resultaten op STEM-benchmarks, vertoont het sterke capaciteiten op grounding- en videotaken en bereikt het open-source SOTA op zijn schaal voor complexe grafiekanalyse.

English

We present Ovis2.5, a successor to Ovis2 designed for native-resolution visual perception and strong multimodal reasoning. Ovis2.5 integrates a native-resolution vision transformer that processes images at their native, variable resolutions, avoiding the degradation from fixed-resolution tiling and preserving both fine detail and global layout -- crucial for visually dense content like complex charts. To strengthen reasoning, we train the model to move beyond linear chain-of-thought and perform reflection -- including self-checking and revision. This advanced capability is exposed as an optional "thinking mode" at inference time, allowing users to trade latency for enhanced accuracy on difficult inputs. The model is trained via a comprehensive five-phase curriculum that progressively builds its skills. The process begins with foundational visual and multimodal pretraining, advances through large-scale instruction tuning, and culminates in alignment and reasoning enhancement using DPO and GRPO. To scale these upgrades efficiently, we employ multimodal data packing and hybrid parallelism, yielding a significant end-to-end speedup. We release two open-source models: Ovis2.5-9B and Ovis2.5-2B. The latter continues the "small model, big performance" philosophy of Ovis2, making it ideal for resource-constrained, on-device scenarios. On the OpenCompass multimodal leaderboard, Ovis2.5-9B averages 78.3, marking a substantial improvement over its predecessor, Ovis2-8B, and achieving state-of-the-art results among open-source MLLMs in the sub-40B parameter range; Ovis2.5-2B scores 73.9, establishing SOTA for its size. Beyond aggregate scores, Ovis2.5 achieves leading results on STEM benchmarks, exhibits strong capabilities on grounding and video tasks, and achieves open-source SOTA at its scale for complex chart analysis.

Ovis2.5 Technisch Rapport

Ovis2.5 Technical Report

Samenvatting

Support