ChatPaper.aiChatPaper

Ovis2.5 技術報告書

Ovis2.5 Technical Report

August 15, 2025
著者: Shiyin Lu, Yang Li, Yu Xia, Yuwei Hu, Shanshan Zhao, Yanqing Ma, Zhichao Wei, Yinglun Li, Lunhao Duan, Jianshan Zhao, Yuxuan Han, Haijun Li, Wanying Chen, Junke Tang, Chengkun Hou, Zhixing Du, Tianli Zhou, Wenjie Zhang, Huping Ding, Jiahe Li, Wen Li, Gui Hu, Yiliang Gu, Siran Yang, Jiamang Wang, Hailong Sun, Yibo Wang, Hui Sun, Jinlong Huang, Yuping He, Shengze Shi, Weihong Zhang, Guodong Zheng, Junpeng Jiang, Sensen Gao, Yi-Feng Wu, Sijia Chen, Yuhui Chen, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang
cs.AI

要旨

本論文では、ネイティブ解像度の視覚認識と強力なマルチモーダル推論を目的として設計されたOvis2の後継モデル、Ovis2.5を紹介する。Ovis2.5は、ネイティブ解像度のVision Transformerを統合し、画像をその可変のネイティブ解像度で処理することで、固定解像度のタイル分割による劣化を回避し、複雑なチャートのような視覚的に密度の高いコンテンツにおいて、細部と全体のレイアウトの両方を保持する。推論能力を強化するため、モデルは線形の連鎖思考を超えて、自己チェックや修正を含む「リフレクション」を実行するように訓練されている。この高度な能力は、推論時にオプションの「思考モード」として提供され、ユーザーは遅延を犠牲にして難易度の高い入力に対する精度を向上させることができる。モデルは、5段階の包括的なカリキュラムを通じて訓練され、そのスキルを段階的に構築する。このプロセスは、基礎的な視覚およびマルチモーダルの事前学習から始まり、大規模な指示チューニングを経て、DPOとGRPOを用いたアライメントと推論の強化で終了する。これらのアップグレードを効率的にスケールするため、マルチモーダルデータパッキングとハイブリッド並列処理を採用し、エンドツーエンドの大幅な高速化を実現した。我々は、Ovis2.5-9BとOvis2.5-2Bの2つのオープンソースモデルを公開する。後者は、Ovis2の「小さなモデル、大きな性能」という哲学を継承し、リソースが制限されたオンデバイスシナリオに最適である。OpenCompassマルチモーダルリーダーボードにおいて、Ovis2.5-9Bは平均78.3を記録し、前身のOvis2-8Bを大幅に上回り、40Bパラメータ未満のオープンソースMLLMの中で最先端の結果を達成した。Ovis2.5-2Bは73.9を記録し、そのサイズにおいてSOTAを確立した。総合スコアを超えて、Ovis2.5はSTEMベンチマークでリーダーシップを発揮し、グラウンディングやビデオタスクにおいて強力な能力を示し、複雑なチャート分析においてその規模でオープンソースSOTAを達成した。
English
We present Ovis2.5, a successor to Ovis2 designed for native-resolution visual perception and strong multimodal reasoning. Ovis2.5 integrates a native-resolution vision transformer that processes images at their native, variable resolutions, avoiding the degradation from fixed-resolution tiling and preserving both fine detail and global layout -- crucial for visually dense content like complex charts. To strengthen reasoning, we train the model to move beyond linear chain-of-thought and perform reflection -- including self-checking and revision. This advanced capability is exposed as an optional "thinking mode" at inference time, allowing users to trade latency for enhanced accuracy on difficult inputs. The model is trained via a comprehensive five-phase curriculum that progressively builds its skills. The process begins with foundational visual and multimodal pretraining, advances through large-scale instruction tuning, and culminates in alignment and reasoning enhancement using DPO and GRPO. To scale these upgrades efficiently, we employ multimodal data packing and hybrid parallelism, yielding a significant end-to-end speedup. We release two open-source models: Ovis2.5-9B and Ovis2.5-2B. The latter continues the "small model, big performance" philosophy of Ovis2, making it ideal for resource-constrained, on-device scenarios. On the OpenCompass multimodal leaderboard, Ovis2.5-9B averages 78.3, marking a substantial improvement over its predecessor, Ovis2-8B, and achieving state-of-the-art results among open-source MLLMs in the sub-40B parameter range; Ovis2.5-2B scores 73.9, establishing SOTA for its size. Beyond aggregate scores, Ovis2.5 achieves leading results on STEM benchmarks, exhibits strong capabilities on grounding and video tasks, and achieves open-source SOTA at its scale for complex chart analysis.
PDF833August 19, 2025