Ovis2.5 기술 보고서
Ovis2.5 Technical Report
August 15, 2025
저자: Shiyin Lu, Yang Li, Yu Xia, Yuwei Hu, Shanshan Zhao, Yanqing Ma, Zhichao Wei, Yinglun Li, Lunhao Duan, Jianshan Zhao, Yuxuan Han, Haijun Li, Wanying Chen, Junke Tang, Chengkun Hou, Zhixing Du, Tianli Zhou, Wenjie Zhang, Huping Ding, Jiahe Li, Wen Li, Gui Hu, Yiliang Gu, Siran Yang, Jiamang Wang, Hailong Sun, Yibo Wang, Hui Sun, Jinlong Huang, Yuping He, Shengze Shi, Weihong Zhang, Guodong Zheng, Junpeng Jiang, Sensen Gao, Yi-Feng Wu, Sijia Chen, Yuhui Chen, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang
cs.AI
초록
우리는 네이티브 해상도 시각 인식과 강력한 다중모달 추론을 위해 설계된 Ovis2의 후속 모델인 Ovis2.5를 소개합니다. Ovis2.5는 네이티브 해상도 비전 트랜스포머를 통합하여 이미지를 원본의 가변 해상도로 처리함으로써 고정 해상도 타일링으로 인한 품질 저하를 방지하고, 복잡한 차트와 같은 시각적으로 밀도 높은 콘텐츠에서 중요한 세부 사항과 전역 레이아웃을 보존합니다. 추론 능력을 강화하기 위해, 모델은 선형적인 사고의 연쇄를 넘어 반영(자기 점검 및 수정 포함)을 수행하도록 학습됩니다. 이 고급 기능은 추론 시 선택 가능한 "사고 모드"로 제공되어, 사용자가 어려운 입력에 대해 정확도를 높이기 위해 지연 시간을 희생할 수 있도록 합니다. 모델은 다섯 단계의 포괄적인 커리큘럼을 통해 점진적으로 기술을 구축하며 학습됩니다. 이 과정은 기본적인 시각 및 다중모달 사전 학습으로 시작하여 대규모 지시 튜닝을 거쳐, DPO와 GRPO를 사용한 정렬 및 추론 강화로 마무리됩니다. 이러한 업그레이드를 효율적으로 확장하기 위해 다중모달 데이터 패킹과 하이브리드 병렬화를 사용하여 엔드투엔드 속도를 크게 향상시켰습니다. 우리는 두 가지 오픈소스 모델인 Ovis2.5-9B와 Ovis2.5-2B를 공개합니다. 후자는 Ovis2의 "작은 모델, 큰 성능" 철학을 이어받아 자원이 제한된 온디바이스 시나리오에 이상적입니다. OpenCompass 다중모달 리더보드에서 Ovis2.5-9B는 평균 78.3점을 기록하여 전작인 Ovis2-8B를 크게 앞질렀으며, 40B 미만 파라미터 범위의 오픈소스 MLLM 중 최신 기술을 달성했습니다. Ovis2.5-2B는 73.9점을 기록하여 동급 크기에서 SOTA를 확립했습니다. 종합 점수 외에도, Ovis2.5는 STEM 벤치마크에서 선두를 달리고, 그라운딩 및 비디오 작업에서 강력한 능력을 보이며, 복잡한 차트 분석에서 해당 규모의 오픈소스 SOTA를 달성했습니다.
English
We present Ovis2.5, a successor to Ovis2 designed for native-resolution
visual perception and strong multimodal reasoning. Ovis2.5 integrates a
native-resolution vision transformer that processes images at their native,
variable resolutions, avoiding the degradation from fixed-resolution tiling and
preserving both fine detail and global layout -- crucial for visually dense
content like complex charts. To strengthen reasoning, we train the model to
move beyond linear chain-of-thought and perform reflection -- including
self-checking and revision. This advanced capability is exposed as an optional
"thinking mode" at inference time, allowing users to trade latency for enhanced
accuracy on difficult inputs. The model is trained via a comprehensive
five-phase curriculum that progressively builds its skills. The process begins
with foundational visual and multimodal pretraining, advances through
large-scale instruction tuning, and culminates in alignment and reasoning
enhancement using DPO and GRPO. To scale these upgrades efficiently, we employ
multimodal data packing and hybrid parallelism, yielding a significant
end-to-end speedup. We release two open-source models: Ovis2.5-9B and
Ovis2.5-2B. The latter continues the "small model, big performance" philosophy
of Ovis2, making it ideal for resource-constrained, on-device scenarios. On the
OpenCompass multimodal leaderboard, Ovis2.5-9B averages 78.3, marking a
substantial improvement over its predecessor, Ovis2-8B, and achieving
state-of-the-art results among open-source MLLMs in the sub-40B parameter
range; Ovis2.5-2B scores 73.9, establishing SOTA for its size. Beyond aggregate
scores, Ovis2.5 achieves leading results on STEM benchmarks, exhibits strong
capabilities on grounding and video tasks, and achieves open-source SOTA at its
scale for complex chart analysis.