Ovis2.5 Technischer Bericht
Ovis2.5 Technical Report
August 15, 2025
papers.authors: Shiyin Lu, Yang Li, Yu Xia, Yuwei Hu, Shanshan Zhao, Yanqing Ma, Zhichao Wei, Yinglun Li, Lunhao Duan, Jianshan Zhao, Yuxuan Han, Haijun Li, Wanying Chen, Junke Tang, Chengkun Hou, Zhixing Du, Tianli Zhou, Wenjie Zhang, Huping Ding, Jiahe Li, Wen Li, Gui Hu, Yiliang Gu, Siran Yang, Jiamang Wang, Hailong Sun, Yibo Wang, Hui Sun, Jinlong Huang, Yuping He, Shengze Shi, Weihong Zhang, Guodong Zheng, Junpeng Jiang, Sensen Gao, Yi-Feng Wu, Sijia Chen, Yuhui Chen, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang
cs.AI
papers.abstract
Wir präsentieren Ovis2.5, den Nachfolger von Ovis2, der für native Auflösung in der visuellen Wahrnehmung und starke multimodale Argumentation entwickelt wurde. Ovis2.5 integriert einen Vision-Transformer mit nativer Auflösung, der Bilder in ihrer ursprünglichen, variablen Auflösung verarbeitet, wodurch die Qualitätsminderung durch feste Auflösungs-Kacheln vermieden wird und sowohl feine Details als auch das globale Layout erhalten bleiben – entscheidend für visuell dichte Inhalte wie komplexe Diagramme. Um die Argumentationsfähigkeit zu stärken, trainieren wir das Modell, über lineare Gedankenketten hinauszugehen und Reflexion durchzuführen – einschließlich Selbstüberprüfung und Revision. Diese erweiterte Fähigkeit wird als optionaler „Denkmodus“ zur Inferenzzeit freigegeben, sodass Benutzer Latenz gegen eine verbesserte Genauigkeit bei schwierigen Eingaben eintauschen können. Das Modell wird durch einen umfassenden fünfphasigen Lehrplan trainiert, der seine Fähigkeiten schrittweise aufbaut. Der Prozess beginnt mit grundlegender visueller und multimodaler Vorverarbeitung, schreitet durch groß angelegtes Instruktions-Fine-Tuning fort und gipfelt in der Ausrichtung und Argumentationsverbesserung mittels DPO und GRPO. Um diese Verbesserungen effizient zu skalieren, setzen wir multimodales Datenpacking und hybride Parallelität ein, was eine signifikante End-to-End-Beschleunigung bewirkt. Wir veröffentlichen zwei Open-Source-Modelle: Ovis2.5-9B und Ovis2.5-2B. Letzteres setzt die Philosophie „kleines Modell, große Leistung“ von Ovis2 fort und eignet sich ideal für ressourcenbeschränkte, geräteinterne Szenarien. Auf der OpenCompass-Multimodal-Rangliste erreicht Ovis2.5-9B durchschnittlich 78,3 Punkte, was eine deutliche Verbesserung gegenüber seinem Vorgänger Ovis2-8B darstellt und state-of-the-art Ergebnisse unter Open-Source-MLLMs im Bereich unter 40B Parametern erzielt; Ovis2.5-2B erzielt 73,9 Punkte und setzt damit den Maßstab für seine Größe. Neben den Gesamtbewertungen erzielt Ovis2.5 führende Ergebnisse in STEM-Benchmarks, zeigt starke Fähigkeiten bei Grounding- und Videoaufgaben und erreicht Open-Source-SOTA in seiner Größenordnung für die Analyse komplexer Diagramme.
English
We present Ovis2.5, a successor to Ovis2 designed for native-resolution
visual perception and strong multimodal reasoning. Ovis2.5 integrates a
native-resolution vision transformer that processes images at their native,
variable resolutions, avoiding the degradation from fixed-resolution tiling and
preserving both fine detail and global layout -- crucial for visually dense
content like complex charts. To strengthen reasoning, we train the model to
move beyond linear chain-of-thought and perform reflection -- including
self-checking and revision. This advanced capability is exposed as an optional
"thinking mode" at inference time, allowing users to trade latency for enhanced
accuracy on difficult inputs. The model is trained via a comprehensive
five-phase curriculum that progressively builds its skills. The process begins
with foundational visual and multimodal pretraining, advances through
large-scale instruction tuning, and culminates in alignment and reasoning
enhancement using DPO and GRPO. To scale these upgrades efficiently, we employ
multimodal data packing and hybrid parallelism, yielding a significant
end-to-end speedup. We release two open-source models: Ovis2.5-9B and
Ovis2.5-2B. The latter continues the "small model, big performance" philosophy
of Ovis2, making it ideal for resource-constrained, on-device scenarios. On the
OpenCompass multimodal leaderboard, Ovis2.5-9B averages 78.3, marking a
substantial improvement over its predecessor, Ovis2-8B, and achieving
state-of-the-art results among open-source MLLMs in the sub-40B parameter
range; Ovis2.5-2B scores 73.9, establishing SOTA for its size. Beyond aggregate
scores, Ovis2.5 achieves leading results on STEM benchmarks, exhibits strong
capabilities on grounding and video tasks, and achieves open-source SOTA at its
scale for complex chart analysis.