LLaVA-OneVision-2: Auf dem Weg zur nächsten Generation perzeptueller Intelligenz

Zusammenfassung

Wir stellen LLaVA-OneVision-2 (LLaVA-OV-2) vor, das leistungsfähigste Vision-Language-Modell der LLaVA-OneVision-Serie, das auf einer breiten Palette multimodaler Benchmarks überlegene Ergebnisse erzielt. Das Modell baut auf einem nativen OneVision-Encoder auf und integriert Windowed Attention für effiziente lokale Berechnungen bei gleichzeitiger Beibehaltung der nativen Auflösung. Sein wesentlicher Fortschritt liegt in der Codec-Stream-Tokenisierung: Es behandelt komprimierte Videos als kontinuierlichen Bitkostenstrom, wobei die Bitkostendynamik adaptive zeitliche Gruppen bestimmt und Bewegungsresidualhinweise salienten räumlichen Inhalt in kompakte visuelle Leinwände selektiert. Diese Zuteilung konzentriert ein begrenztes Token-Budget auf inhaltsrelevante Ereignisse und ermöglicht so eine stabilere Token-Kompression für lange Videos als feste Gruppen von Bildern. Ein gemeinsames 3D-RoPE platziert Codec-Leinwände, abgetastete Frames und Bilder in einem einheitlichen raumzeitlichen Koordinatensystem. Darüber hinaus bauen wir den Daten- und Trainingsstack von LLaVA-OV-2 auf groß angelegter offener Überwachung auf: etwa 8 Millionen neu beschriftete Videobeispiele für das Vortraining und ein 4 Millionen Beispiele umfassender räumlicher Korpus für die Feinabstimmung. Wir führen außerdem JumpScore ein, einen Benchmark für zeitliche Lokalisierung, der auf feinkörnige Verankerung in hochfrequenten, dicht wiederholten Bewegungen abzielt – ein Bereich, der in bestehenden Videoauswertungen unterrepräsentiert ist. Eine herausragende Fähigkeit von LLaVA-OV-2 ist seine einheitliche Wahrnehmung in den Bereichen Video-Verständnis, zeitliche Verankerung, räumliche Verankerung und Manipulationsspur-Schlussfolgerung. Auf JumpScore erreicht LLaVA-OneVision-2-8B einen JumpScore mAP von 74,9 und übertrifft Qwen3-VL-8B (30,1) um +44,8 Punkte; bei gleichem visuellem Token-Budget auf demselben Benchmark verbessern Codec-Stream-Eingaben die zeitliche Verankerung gegenüber Frame-Abtastung um +9,7 Punkte. Über Standard-Benchmarks hinweg übertrifft LLaVA-OneVision-2-8B Qwen3-VL-8B zudem um durchschnittlich +4,3 Punkte bei Videoaufgaben, +5,3 bei räumlichen Aufgaben und +15,6 durchschnittliche J&F bei Tracking-Aufgaben.

English

We introduce LLaVA-OneVision-2 (LLaVA-OV-2), the most capable vision-language model in the LLaVA-OneVision series to date, achieving superior performance across a broad range of multimodal benchmarks. The model builds on a native OneVision-Encoder and incorporates Windowed Attention for efficient local computation while maintaining native resolution. Its key advance is codec-stream tokenization: it treats compressed video as a continuous bit-cost stream, where bit-cost dynamics determine adaptive temporal groups, and motion-residual cues select salient spatial evidence into compact visual canvases. This allocation concentrates a limited token budget on event-bearing content, enabling more stable long-video token compression than fixed groups of pictures. A shared 3D RoPE further places codec canvases, sampled frames, and images in a unified spatiotemporal coordinate system. Furthermore, we build the LLaVA-OV-2 data and training stack around large-scale open supervision: approximately 8M re-captioned video samples for pretraining, a 4M-sample spatial corpus for fine-tuning. We also introduce JumpScore, a temporal-localization benchmark targeting fine-grained grounding in high-frequency, densely repeated motion, a regime underrepresented by existing video evaluations. A standout capability of LLaVA-OV-2 is its unified perception across video understanding, temporal grounding, spatial grounding, and manipulation-trace reasoning. On JumpScore, LLaVA-OneVision-2-8B reaches 74.9 JumpScore mAP, surpassing Qwen3-VL-8B (30.1) by +44.8 points; under matched visual-token budgets on the same benchmark, codec-stream inputs improve temporal grounding over frame sampling by +9.7 points. Across standard benchmarks, LLaVA-OneVision-2-8B further outperforms Qwen3-VL-8B by +4.3 average points on video tasks, +5.3 on spatial tasks, and +15.6 average J&F on tracking tasks.