ChatPaper.aiChatPaper

LLaVA-OneVision-2: Auf dem Weg zur nächsten Generation perzeptueller Intelligenz

LLaVA-OneVision-2: Towards Next-Generation Perceptual Intelligence

May 25, 2026
Autoren: Xiang An, Yin Xie, Feilong Tang, Yunyao Yan, Huajie Tan, Didi Zhu, Changrui Chen, Xiuwei Zhao, Bin Qin, Kaicheng Yang, Yifei Shen, Yuanhan Zhang, Kaichen Zhang, Wenkang Zhang, Zheng Cheng, Nansen Zhang, Chunsheng Wu, Chunjiang Ge, Zimin Ran, Dehua Song, Chunyuan Li, Shikun Feng, Ming Hu, Zhangquan Chen, Junbo Niu, Bo Li, Ziyong Feng, Ziwei Liu, Zongyuan Ge, Jiankang Deng
cs.AI

Zusammenfassung

Wir stellen LLaVA-OneVision-2 (LLaVA-OV-2) vor, das leistungsfähigste Vision-Language-Modell der LLaVA-OneVision-Serie, das auf einer breiten Palette multimodaler Benchmarks überlegene Ergebnisse erzielt. Das Modell baut auf einem nativen OneVision-Encoder auf und integriert Windowed Attention für effiziente lokale Berechnungen bei gleichzeitiger Beibehaltung der nativen Auflösung. Sein wesentlicher Fortschritt liegt in der Codec-Stream-Tokenisierung: Es behandelt komprimierte Videos als kontinuierlichen Bitkostenstrom, wobei die Bitkostendynamik adaptive zeitliche Gruppen bestimmt und Bewegungsresidualhinweise salienten räumlichen Inhalt in kompakte visuelle Leinwände selektiert. Diese Zuteilung konzentriert ein begrenztes Token-Budget auf inhaltsrelevante Ereignisse und ermöglicht so eine stabilere Token-Kompression für lange Videos als feste Gruppen von Bildern. Ein gemeinsames 3D-RoPE platziert Codec-Leinwände, abgetastete Frames und Bilder in einem einheitlichen raumzeitlichen Koordinatensystem. Darüber hinaus bauen wir den Daten- und Trainingsstack von LLaVA-OV-2 auf groß angelegter offener Überwachung auf: etwa 8 Millionen neu beschriftete Videobeispiele für das Vortraining und ein 4 Millionen Beispiele umfassender räumlicher Korpus für die Feinabstimmung. Wir führen außerdem JumpScore ein, einen Benchmark für zeitliche Lokalisierung, der auf feinkörnige Verankerung in hochfrequenten, dicht wiederholten Bewegungen abzielt – ein Bereich, der in bestehenden Videoauswertungen unterrepräsentiert ist. Eine herausragende Fähigkeit von LLaVA-OV-2 ist seine einheitliche Wahrnehmung in den Bereichen Video-Verständnis, zeitliche Verankerung, räumliche Verankerung und Manipulationsspur-Schlussfolgerung. Auf JumpScore erreicht LLaVA-OneVision-2-8B einen JumpScore mAP von 74,9 und übertrifft Qwen3-VL-8B (30,1) um +44,8 Punkte; bei gleichem visuellem Token-Budget auf demselben Benchmark verbessern Codec-Stream-Eingaben die zeitliche Verankerung gegenüber Frame-Abtastung um +9,7 Punkte. Über Standard-Benchmarks hinweg übertrifft LLaVA-OneVision-2-8B Qwen3-VL-8B zudem um durchschnittlich +4,3 Punkte bei Videoaufgaben, +5,3 bei räumlichen Aufgaben und +15,6 durchschnittliche J&F bei Tracking-Aufgaben.
English
We introduce LLaVA-OneVision-2 (LLaVA-OV-2), the most capable vision-language model in the LLaVA-OneVision series to date, achieving superior performance across a broad range of multimodal benchmarks. The model builds on a native OneVision-Encoder and incorporates Windowed Attention for efficient local computation while maintaining native resolution. Its key advance is codec-stream tokenization: it treats compressed video as a continuous bit-cost stream, where bit-cost dynamics determine adaptive temporal groups, and motion-residual cues select salient spatial evidence into compact visual canvases. This allocation concentrates a limited token budget on event-bearing content, enabling more stable long-video token compression than fixed groups of pictures. A shared 3D RoPE further places codec canvases, sampled frames, and images in a unified spatiotemporal coordinate system. Furthermore, we build the LLaVA-OV-2 data and training stack around large-scale open supervision: approximately 8M re-captioned video samples for pretraining, a 4M-sample spatial corpus for fine-tuning. We also introduce JumpScore, a temporal-localization benchmark targeting fine-grained grounding in high-frequency, densely repeated motion, a regime underrepresented by existing video evaluations. A standout capability of LLaVA-OV-2 is its unified perception across video understanding, temporal grounding, spatial grounding, and manipulation-trace reasoning. On JumpScore, LLaVA-OneVision-2-8B reaches 74.9 JumpScore mAP, surpassing Qwen3-VL-8B (30.1) by +44.8 points; under matched visual-token budgets on the same benchmark, codec-stream inputs improve temporal grounding over frame sampling by +9.7 points. Across standard benchmarks, LLaVA-OneVision-2-8B further outperforms Qwen3-VL-8B by +4.3 average points on video tasks, +5.3 on spatial tasks, and +15.6 average J&F on tracking tasks.