LLaVA-OneVision-2: К перцептивному интеллекту следующего поколения

Аннотация

Мы представляем LLaVA-OneVision-2 (LLaVA-OV-2) — самую мощную модель «видение-язык» в серии LLaVA-OneVision на сегодняшний день, которая демонстрирует превосходную производительность в широком спектре мультимодальных бенчмарков. Модель основана на родном кодировщике OneVision-Encoder и включает оконное внимание (Windowed Attention) для эффективных локальных вычислений при сохранении нативного разрешения. Ключевым нововведением является токенизация кодек-потока (codec-stream tokenization): сжатое видео рассматривается как непрерывный поток с битовой стоимостью, где динамика битовой стоимости определяет адаптивные временные группы, а сигналы остатка движения (motion-residual cues) отбирают значимые пространственные свидетельства в компактные визуальные холсты. Такое распределение концентрирует ограниченный бюджет токенов на содержащем события контенте, обеспечивая более стабильную компрессию токенов в длинных видео по сравнению с фиксированными группами кадров. Общая 3D RoPE дополнительно помещает кодек-холсты, выборочные кадры и изображения в единую пространственно-временную систему координат. Кроме того, мы построили основу данных и обучения LLaVA-OV-2 вокруг крупномасштабного открытого супервизирования: около 8 млн переподписанных видеосэмплов для предобучения и пространственный корпус из 4 млн сэмплов для тонкой настройки. Мы также представляем JumpScore — эталон временной локализации, нацеленный на тонкую привязку в высокочастотных, плотно повторяющихся движениях — режиме, недостаточно представленном в существующих видео-оценках. Выдающаяся способность LLaVA-OV-2 заключается в едином восприятии, охватывающем понимание видео, временную привязку, пространственную привязку и логический вывод по следам манипуляций. На JumpScore модель LLaVA-OneVision-2-8B достигает 74,9 mAP, превосходя Qwen3-VL-8B (30,1) на 44,8 балла; при сопоставимых бюджетах визуальных токенов на том же эталоне входные данные кодек-потока улучшают временную привязку по сравнению с семплированием кадров на 9,7 балла. В стандартных бенчмарках LLaVA-OneVision-2-8B также превосходит Qwen3-VL-8B в среднем на 4,3 балла в видео-задачах, на 5,3 — в пространственных задачах и на 15,6 в среднем J&F в задачах отслеживания.

English

We introduce LLaVA-OneVision-2 (LLaVA-OV-2), the most capable vision-language model in the LLaVA-OneVision series to date, achieving superior performance across a broad range of multimodal benchmarks. The model builds on a native OneVision-Encoder and incorporates Windowed Attention for efficient local computation while maintaining native resolution. Its key advance is codec-stream tokenization: it treats compressed video as a continuous bit-cost stream, where bit-cost dynamics determine adaptive temporal groups, and motion-residual cues select salient spatial evidence into compact visual canvases. This allocation concentrates a limited token budget on event-bearing content, enabling more stable long-video token compression than fixed groups of pictures. A shared 3D RoPE further places codec canvases, sampled frames, and images in a unified spatiotemporal coordinate system. Furthermore, we build the LLaVA-OV-2 data and training stack around large-scale open supervision: approximately 8M re-captioned video samples for pretraining, a 4M-sample spatial corpus for fine-tuning. We also introduce JumpScore, a temporal-localization benchmark targeting fine-grained grounding in high-frequency, densely repeated motion, a regime underrepresented by existing video evaluations. A standout capability of LLaVA-OV-2 is its unified perception across video understanding, temporal grounding, spatial grounding, and manipulation-trace reasoning. On JumpScore, LLaVA-OneVision-2-8B reaches 74.9 JumpScore mAP, surpassing Qwen3-VL-8B (30.1) by +44.8 points; under matched visual-token budgets on the same benchmark, codec-stream inputs improve temporal grounding over frame sampling by +9.7 points. Across standard benchmarks, LLaVA-OneVision-2-8B further outperforms Qwen3-VL-8B by +4.3 average points on video tasks, +5.3 on spatial tasks, and +15.6 average J&F on tracking tasks.