LLaVA-OneVision-2: Naar volgende-generatie perceptuele intelligentie

Samenvatting

We introduceren LLaVA-OneVision-2 (LLaVA-OV-2), het meest capabele visie-taalmodel in de LLaVA-OneVision-serie tot nu toe, dat superieure prestaties levert over een breed scala aan multimodale benchmarks. Het model bouwt voort op een native OneVision-Encoder en integreert Windowed Attention voor efficiënte lokale berekening, terwijl de native resolutie behouden blijft. De belangrijkste vooruitgang is codec-stroom tokenisatie: het behandelt gecomprimeerde video als een continue bitkostenstroom, waarbij de bitkostendynamiek adaptieve temporele groepen bepaalt en bewegings-residuen signalen selecteren voor relevante ruimtelijke bewijzen in compacte visuele doeken. Deze allocatie concentreert een beperkt tokenbudget op gebeurtenisdragende inhoud, wat een stabielere tokencompressie van lange video's mogelijk maakt dan vaste groepen beelden. Een gedeelde 3D RoPE plaatst codec-doeken, gesamplede frames en afbeeldingen verder in een uniform ruimte-tijd-coördinatensysteem. Daarnaast bouwen we de LLaVA-OV-2-data- en trainingsstack rond grootschalige open supervisie: ongeveer 8M opnieuw van bijschriften voorziene videovoorbeelden voor pre-training, en een 4M-voorbeelden ruimtelijk corpus voor fine-tuning. We introduceren ook JumpScore, een temporele-localisatiebenchmark die gericht is op fijnmazige gronding in hoogfrequente, dicht herhaalde beweging, een regime dat ondervertegenwoordigd is in bestaande video-evaluaties. Een opvallende capaciteit van LLaVA-OV-2 is de uniforme perceptie over videobegrip, temporele gronding, ruimtelijke gronding en manipulatiespoor redeneren. Op JumpScore behaalt LLaVA-OneVision-2-8B 74,9 JumpScore mAP, waarmee het Qwen3-VL-8B (30,1) met +44,8 punten overtreft; bij gelijke visuele tokenbudgetten op dezelfde benchmark verbeteren codec-stroom ingangen de temporele gronding ten opzichte van framesampling met +9,7 punten. Over standaard benchmarks heen presteert LLaVA-OneVision-2-8B verder gemiddeld +4,3 punten beter dan Qwen3-VL-8B op videotaken, +5,3 op ruimtelijke taken en +15,6 gemiddelde J&F op tracking taken.

English

We introduce LLaVA-OneVision-2 (LLaVA-OV-2), the most capable vision-language model in the LLaVA-OneVision series to date, achieving superior performance across a broad range of multimodal benchmarks. The model builds on a native OneVision-Encoder and incorporates Windowed Attention for efficient local computation while maintaining native resolution. Its key advance is codec-stream tokenization: it treats compressed video as a continuous bit-cost stream, where bit-cost dynamics determine adaptive temporal groups, and motion-residual cues select salient spatial evidence into compact visual canvases. This allocation concentrates a limited token budget on event-bearing content, enabling more stable long-video token compression than fixed groups of pictures. A shared 3D RoPE further places codec canvases, sampled frames, and images in a unified spatiotemporal coordinate system. Furthermore, we build the LLaVA-OV-2 data and training stack around large-scale open supervision: approximately 8M re-captioned video samples for pretraining, a 4M-sample spatial corpus for fine-tuning. We also introduce JumpScore, a temporal-localization benchmark targeting fine-grained grounding in high-frequency, densely repeated motion, a regime underrepresented by existing video evaluations. A standout capability of LLaVA-OV-2 is its unified perception across video understanding, temporal grounding, spatial grounding, and manipulation-trace reasoning. On JumpScore, LLaVA-OneVision-2-8B reaches 74.9 JumpScore mAP, surpassing Qwen3-VL-8B (30.1) by +44.8 points; under matched visual-token budgets on the same benchmark, codec-stream inputs improve temporal grounding over frame sampling by +9.7 points. Across standard benchmarks, LLaVA-OneVision-2-8B further outperforms Qwen3-VL-8B by +4.3 average points on video tasks, +5.3 on spatial tasks, and +15.6 average J&F on tracking tasks.