ChatPaper.aiChatPaper

Технический отчет Ovis2.5

Ovis2.5 Technical Report

August 15, 2025
Авторы: Shiyin Lu, Yang Li, Yu Xia, Yuwei Hu, Shanshan Zhao, Yanqing Ma, Zhichao Wei, Yinglun Li, Lunhao Duan, Jianshan Zhao, Yuxuan Han, Haijun Li, Wanying Chen, Junke Tang, Chengkun Hou, Zhixing Du, Tianli Zhou, Wenjie Zhang, Huping Ding, Jiahe Li, Wen Li, Gui Hu, Yiliang Gu, Siran Yang, Jiamang Wang, Hailong Sun, Yibo Wang, Hui Sun, Jinlong Huang, Yuping He, Shengze Shi, Weihong Zhang, Guodong Zheng, Junpeng Jiang, Sensen Gao, Yi-Feng Wu, Sijia Chen, Yuhui Chen, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang
cs.AI

Аннотация

Мы представляем Ovis2.5 — преемника Ovis2, разработанного для визуального восприятия в нативном разрешении и мощного мультимодального анализа. Ovis2.5 интегрирует трансформер для обработки изображений в их нативном, переменном разрешении, избегая деградации, связанной с фиксированным разрешением и разбиением на фрагменты, и сохраняя как мелкие детали, так и глобальную структуру — что критически важно для визуально насыщенного контента, такого как сложные диаграммы. Для усиления аналитических способностей модель обучается выходить за рамки линейной цепочки рассуждений и выполнять рефлексию, включая самопроверку и исправление. Эта продвинутая функциональность доступна в качестве опционального "режима мышления" на этапе вывода, позволяя пользователям жертвовать задержкой ради повышения точности на сложных входных данных. Модель обучается по комплексной пятиэтапной программе, которая постепенно развивает её навыки. Процесс начинается с базового визуального и мультимодального предобучения, переходит к крупномасштабной настройке на инструкциях и завершается улучшением согласованности и аналитических способностей с использованием DPO и GRPO. Для эффективного масштабирования этих улучшений мы применяем мультимодальную упаковку данных и гибридный параллелизм, что обеспечивает значительное ускорение на всех этапах. Мы выпускаем две модели с открытым исходным кодом: Ovis2.5-9B и Ovis2.5-2B. Последняя продолжает философию Ovis2 "маленькая модель, большая производительность", что делает её идеальной для сценариев с ограниченными ресурсами и работы на устройствах. На мультимодальном рейтинге OpenCompass Ovis2.5-9B в среднем набирает 78.3 балла, что значительно превосходит своего предшественника Ovis2-8B и устанавливает новый стандарт среди открытых MLLM с параметрами менее 40 миллиардов; Ovis2.5-2B набирает 73.9 балла, устанавливая SOTA для своего размера. Помимо общих оценок, Ovis2.5 демонстрирует лидирующие результаты на STEM-бенчмарках, показывает сильные способности в задачах, связанных с заземлением и видео, и достигает SOTA среди открытых моделей своего масштаба в анализе сложных диаграмм.
English
We present Ovis2.5, a successor to Ovis2 designed for native-resolution visual perception and strong multimodal reasoning. Ovis2.5 integrates a native-resolution vision transformer that processes images at their native, variable resolutions, avoiding the degradation from fixed-resolution tiling and preserving both fine detail and global layout -- crucial for visually dense content like complex charts. To strengthen reasoning, we train the model to move beyond linear chain-of-thought and perform reflection -- including self-checking and revision. This advanced capability is exposed as an optional "thinking mode" at inference time, allowing users to trade latency for enhanced accuracy on difficult inputs. The model is trained via a comprehensive five-phase curriculum that progressively builds its skills. The process begins with foundational visual and multimodal pretraining, advances through large-scale instruction tuning, and culminates in alignment and reasoning enhancement using DPO and GRPO. To scale these upgrades efficiently, we employ multimodal data packing and hybrid parallelism, yielding a significant end-to-end speedup. We release two open-source models: Ovis2.5-9B and Ovis2.5-2B. The latter continues the "small model, big performance" philosophy of Ovis2, making it ideal for resource-constrained, on-device scenarios. On the OpenCompass multimodal leaderboard, Ovis2.5-9B averages 78.3, marking a substantial improvement over its predecessor, Ovis2-8B, and achieving state-of-the-art results among open-source MLLMs in the sub-40B parameter range; Ovis2.5-2B scores 73.9, establishing SOTA for its size. Beyond aggregate scores, Ovis2.5 achieves leading results on STEM benchmarks, exhibits strong capabilities on grounding and video tasks, and achieves open-source SOTA at its scale for complex chart analysis.
PDF833August 19, 2025