LLaVA-OneVision-2: К перцептивному интеллекту следующего поколения
LLaVA-OneVision-2: Towards Next-Generation Perceptual Intelligence
May 25, 2026
Авторы: Xiang An, Yin Xie, Feilong Tang, Yunyao Yan, Huajie Tan, Didi Zhu, Changrui Chen, Xiuwei Zhao, Bin Qin, Kaicheng Yang, Yifei Shen, Yuanhan Zhang, Kaichen Zhang, Wenkang Zhang, Zheng Cheng, Nansen Zhang, Chunsheng Wu, Chunjiang Ge, Zimin Ran, Dehua Song, Chunyuan Li, Shikun Feng, Ming Hu, Zhangquan Chen, Junbo Niu, Bo Li, Ziyong Feng, Ziwei Liu, Zongyuan Ge, Jiankang Deng
cs.AI
Аннотация
Мы представляем LLaVA-OneVision-2 (LLaVA-OV-2) — самую мощную модель «видение-язык» в серии LLaVA-OneVision на сегодняшний день, которая демонстрирует превосходную производительность в широком спектре мультимодальных бенчмарков. Модель основана на родном кодировщике OneVision-Encoder и включает оконное внимание (Windowed Attention) для эффективных локальных вычислений при сохранении нативного разрешения. Ключевым нововведением является токенизация кодек-потока (codec-stream tokenization): сжатое видео рассматривается как непрерывный поток с битовой стоимостью, где динамика битовой стоимости определяет адаптивные временные группы, а сигналы остатка движения (motion-residual cues) отбирают значимые пространственные свидетельства в компактные визуальные холсты. Такое распределение концентрирует ограниченный бюджет токенов на содержащем события контенте, обеспечивая более стабильную компрессию токенов в длинных видео по сравнению с фиксированными группами кадров. Общая 3D RoPE дополнительно помещает кодек-холсты, выборочные кадры и изображения в единую пространственно-временную систему координат. Кроме того, мы построили основу данных и обучения LLaVA-OV-2 вокруг крупномасштабного открытого супервизирования: около 8 млн переподписанных видеосэмплов для предобучения и пространственный корпус из 4 млн сэмплов для тонкой настройки. Мы также представляем JumpScore — эталон временной локализации, нацеленный на тонкую привязку в высокочастотных, плотно повторяющихся движениях — режиме, недостаточно представленном в существующих видео-оценках. Выдающаяся способность LLaVA-OV-2 заключается в едином восприятии, охватывающем понимание видео, временную привязку, пространственную привязку и логический вывод по следам манипуляций. На JumpScore модель LLaVA-OneVision-2-8B достигает 74,9 mAP, превосходя Qwen3-VL-8B (30,1) на 44,8 балла; при сопоставимых бюджетах визуальных токенов на том же эталоне входные данные кодек-потока улучшают временную привязку по сравнению с семплированием кадров на 9,7 балла. В стандартных бенчмарках LLaVA-OneVision-2-8B также превосходит Qwen3-VL-8B в среднем на 4,3 балла в видео-задачах, на 5,3 — в пространственных задачах и на 15,6 в среднем J&F в задачах отслеживания.
English
We introduce LLaVA-OneVision-2 (LLaVA-OV-2), the most capable vision-language model in the LLaVA-OneVision series to date, achieving superior performance across a broad range of multimodal benchmarks. The model builds on a native OneVision-Encoder and incorporates Windowed Attention for efficient local computation while maintaining native resolution. Its key advance is codec-stream tokenization: it treats compressed video as a continuous bit-cost stream, where bit-cost dynamics determine adaptive temporal groups, and motion-residual cues select salient spatial evidence into compact visual canvases. This allocation concentrates a limited token budget on event-bearing content, enabling more stable long-video token compression than fixed groups of pictures. A shared 3D RoPE further places codec canvases, sampled frames, and images in a unified spatiotemporal coordinate system. Furthermore, we build the LLaVA-OV-2 data and training stack around large-scale open supervision: approximately 8M re-captioned video samples for pretraining, a 4M-sample spatial corpus for fine-tuning. We also introduce JumpScore, a temporal-localization benchmark targeting fine-grained grounding in high-frequency, densely repeated motion, a regime underrepresented by existing video evaluations. A standout capability of LLaVA-OV-2 is its unified perception across video understanding, temporal grounding, spatial grounding, and manipulation-trace reasoning. On JumpScore, LLaVA-OneVision-2-8B reaches 74.9 JumpScore mAP, surpassing Qwen3-VL-8B (30.1) by +44.8 points; under matched visual-token budgets on the same benchmark, codec-stream inputs improve temporal grounding over frame sampling by +9.7 points. Across standard benchmarks, LLaVA-OneVision-2-8B further outperforms Qwen3-VL-8B by +4.3 average points on video tasks, +5.3 on spatial tasks, and +15.6 average J&F on tracking tasks.