ChatPaper.aiChatPaper

Rapport technique Ovis2.5

Ovis2.5 Technical Report

August 15, 2025
papers.authors: Shiyin Lu, Yang Li, Yu Xia, Yuwei Hu, Shanshan Zhao, Yanqing Ma, Zhichao Wei, Yinglun Li, Lunhao Duan, Jianshan Zhao, Yuxuan Han, Haijun Li, Wanying Chen, Junke Tang, Chengkun Hou, Zhixing Du, Tianli Zhou, Wenjie Zhang, Huping Ding, Jiahe Li, Wen Li, Gui Hu, Yiliang Gu, Siran Yang, Jiamang Wang, Hailong Sun, Yibo Wang, Hui Sun, Jinlong Huang, Yuping He, Shengze Shi, Weihong Zhang, Guodong Zheng, Junpeng Jiang, Sensen Gao, Yi-Feng Wu, Sijia Chen, Yuhui Chen, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang
cs.AI

papers.abstract

Nous présentons Ovis2.5, un successeur d'Ovis2 conçu pour la perception visuelle en résolution native et un raisonnement multimodal robuste. Ovis2.5 intègre un vision transformer en résolution native qui traite les images à leurs résolutions natives et variables, évitant ainsi la dégradation due au découpage en résolution fixe et préservant à la fois les détails fins et la disposition globale — essentiels pour des contenus visuellement denses comme les graphiques complexes. Pour renforcer le raisonnement, nous entraînons le modèle à aller au-delà d'une chaîne de pensée linéaire et à effectuer une réflexion — incluant l'auto-vérification et la révision. Cette capacité avancée est exposée comme un "mode de réflexion" optionnel lors de l'inférence, permettant aux utilisateurs de troquer la latence contre une précision accrue sur des entrées difficiles. Le modèle est entraîné via un curriculum complet en cinq phases qui développe progressivement ses compétences. Le processus commence par un pré-entraînement visuel et multimodal de base, progresse à travers un réglage d'instructions à grande échelle, et culmine avec un renforcement de l'alignement et du raisonnement utilisant DPO et GRPO. Pour mettre à l'échelle ces améliorations de manière efficace, nous employons un emballage de données multimodal et un parallélisme hybride, obtenant ainsi une accélération significative de bout en bout. Nous publions deux modèles open-source : Ovis2.5-9B et Ovis2.5-2B. Ce dernier poursuit la philosophie "petit modèle, grande performance" d'Ovis2, le rendant idéal pour des scénarios contraints en ressources et sur appareil. Sur le classement multimodal OpenCompass, Ovis2.5-9B obtient une moyenne de 78,3, marquant une amélioration substantielle par rapport à son prédécesseur, Ovis2-8B, et atteignant des résultats de pointe parmi les MLLM open-source dans la gamme des moins de 40 milliards de paramètres ; Ovis2.5-2B obtient un score de 73,9, établissant un SOTA pour sa taille. Au-delà des scores agrégés, Ovis2.5 obtient des résultats de premier plan sur les benchmarks STEM, démontre de solides capacités sur les tâches d'ancrage et vidéo, et atteint un SOTA open-source à son échelle pour l'analyse de graphiques complexes.
English
We present Ovis2.5, a successor to Ovis2 designed for native-resolution visual perception and strong multimodal reasoning. Ovis2.5 integrates a native-resolution vision transformer that processes images at their native, variable resolutions, avoiding the degradation from fixed-resolution tiling and preserving both fine detail and global layout -- crucial for visually dense content like complex charts. To strengthen reasoning, we train the model to move beyond linear chain-of-thought and perform reflection -- including self-checking and revision. This advanced capability is exposed as an optional "thinking mode" at inference time, allowing users to trade latency for enhanced accuracy on difficult inputs. The model is trained via a comprehensive five-phase curriculum that progressively builds its skills. The process begins with foundational visual and multimodal pretraining, advances through large-scale instruction tuning, and culminates in alignment and reasoning enhancement using DPO and GRPO. To scale these upgrades efficiently, we employ multimodal data packing and hybrid parallelism, yielding a significant end-to-end speedup. We release two open-source models: Ovis2.5-9B and Ovis2.5-2B. The latter continues the "small model, big performance" philosophy of Ovis2, making it ideal for resource-constrained, on-device scenarios. On the OpenCompass multimodal leaderboard, Ovis2.5-9B averages 78.3, marking a substantial improvement over its predecessor, Ovis2-8B, and achieving state-of-the-art results among open-source MLLMs in the sub-40B parameter range; Ovis2.5-2B scores 73.9, establishing SOTA for its size. Beyond aggregate scores, Ovis2.5 achieves leading results on STEM benchmarks, exhibits strong capabilities on grounding and video tasks, and achieves open-source SOTA at its scale for complex chart analysis.
PDF833August 19, 2025