LLaVA-OneVision-2 : Vers une intelligence perceptive de nouvelle génération

Résumé

Nous présentons LLaVA-OneVision-2 (LLaVA-OV-2), le modèle vision-langage le plus performant de la série LLaVA-OneVision à ce jour, atteignant des résultats supérieurs sur un large éventail de benchmarks multimodaux. Le modèle repose sur un encodeur OneVision natif et intègre une Attention Fenêtrée pour un calcul local efficace tout en maintenant une résolution native. Son avancée clé réside dans la tokenisation en flux codec : il traite la vidéo compressée comme un flux continu de coût binaire, où la dynamique du coût binaire détermine des groupes temporels adaptatifs, et où les indices résiduels de mouvement sélectionnent les preuves saillantes dans des toiles visuelles compactes. Cette allocation concentre un budget limité de tokens sur le contenu porteur d’événements, permettant une compression plus stable des tokens vidéo longs que les groupes fixes d’images. Un 3D RoPE partagé place en outre les toiles codec, les images échantillonnées et les images fixes dans un système de coordonnées spatiotemporelles unifié. De plus, nous construisons la pile de données et d’entraînement de LLaVA-OV-2 autour d’une supervision ouverte à grande échelle : environ 8 millions d’échantillons vidéo re-légendés pour le pré-entraînement, un corpus spatial de 4 millions d’échantillons pour le réglage fin. Nous introduisons également JumpScore, un benchmark de localisation temporelle ciblant l’ancrage fin dans des mouvements fréquents et densément répétés, un régime sous-représenté par les évaluations vidéo existantes. Une capacité remarquable de LLaVA-OV-2 est sa perception unifiée à travers la compréhension vidéo, l’ancrage temporel, l’ancrage spatial et le raisonnement sur les traces de manipulation. Sur JumpScore, LLaVA-OneVision-2-8B atteint un mAP de 74,9, surpassant Qwen3-VL-8B (30,1) de +44,8 points ; sous des budgets de tokens visuels appariés sur le même benchmark, les entrées en flux codec améliorent l’ancrage temporel de +9,7 points par rapport à l’échantillonnage d’images. Sur les benchmarks standards, LLaVA-OneVision-2-8B surpasse en outre Qwen3-VL-8B de +4,3 points en moyenne sur les tâches vidéo, +5,3 sur les tâches spatiales, et +15,6 de J&F moyen sur les tâches de suivi.

English

We introduce LLaVA-OneVision-2 (LLaVA-OV-2), the most capable vision-language model in the LLaVA-OneVision series to date, achieving superior performance across a broad range of multimodal benchmarks. The model builds on a native OneVision-Encoder and incorporates Windowed Attention for efficient local computation while maintaining native resolution. Its key advance is codec-stream tokenization: it treats compressed video as a continuous bit-cost stream, where bit-cost dynamics determine adaptive temporal groups, and motion-residual cues select salient spatial evidence into compact visual canvases. This allocation concentrates a limited token budget on event-bearing content, enabling more stable long-video token compression than fixed groups of pictures. A shared 3D RoPE further places codec canvases, sampled frames, and images in a unified spatiotemporal coordinate system. Furthermore, we build the LLaVA-OV-2 data and training stack around large-scale open supervision: approximately 8M re-captioned video samples for pretraining, a 4M-sample spatial corpus for fine-tuning. We also introduce JumpScore, a temporal-localization benchmark targeting fine-grained grounding in high-frequency, densely repeated motion, a regime underrepresented by existing video evaluations. A standout capability of LLaVA-OV-2 is its unified perception across video understanding, temporal grounding, spatial grounding, and manipulation-trace reasoning. On JumpScore, LLaVA-OneVision-2-8B reaches 74.9 JumpScore mAP, surpassing Qwen3-VL-8B (30.1) by +44.8 points; under matched visual-token budgets on the same benchmark, codec-stream inputs improve temporal grounding over frame sampling by +9.7 points. Across standard benchmarks, LLaVA-OneVision-2-8B further outperforms Qwen3-VL-8B by +4.3 average points on video tasks, +5.3 on spatial tasks, and +15.6 average J&F on tracking tasks.