ChatPaper.aiChatPaper

LLaVA-OneVision-2: Rumo à Inteligência Perceptual de Próxima Geração

LLaVA-OneVision-2: Towards Next-Generation Perceptual Intelligence

May 25, 2026
Autores: Xiang An, Yin Xie, Feilong Tang, Yunyao Yan, Huajie Tan, Didi Zhu, Changrui Chen, Xiuwei Zhao, Bin Qin, Kaicheng Yang, Yifei Shen, Yuanhan Zhang, Kaichen Zhang, Wenkang Zhang, Zheng Cheng, Nansen Zhang, Chunsheng Wu, Chunjiang Ge, Zimin Ran, Dehua Song, Chunyuan Li, Shikun Feng, Ming Hu, Zhangquan Chen, Junbo Niu, Bo Li, Ziyong Feng, Ziwei Liu, Zongyuan Ge, Jiankang Deng
cs.AI

Resumo

Apresentamos o LLaVA-OneVision-2 (LLaVA-OV-2), o modelo visão-linguagem mais capaz da série LLaVA-OneVision até o momento, alcançando desempenho superior em uma ampla gama de benchmarks multimodais. O modelo é construído sobre um codificador OneVision nativo e incorpora Atenção Janelada para computação local eficiente, mantendo a resolução nativa. Seu principal avanço é a tokenização por fluxo de codec: ela trata o vídeo comprimido como um fluxo contínuo de custo de bits, onde a dinâmica do custo de bits determina grupos temporais adaptativos, e pistas de resíduo de movimento selecionam evidências espaciais salientes em telas visuais compactas. Essa alocação concentra um orçamento limitado de tokens em conteúdo portador de eventos, permitindo uma compressão de tokens de vídeo longo mais estável do que grupos fixos de imagens. Uma RoPE 3D compartilhada ainda posiciona telas de codec, quadros amostrados e imagens em um sistema de coordenadas espaço-temporais unificado. Além disso, construímos a pilha de dados e treinamento do LLaVA-OV-2 em torno de supervisão aberta em larga escala: aproximadamente 8 milhões de amostras de vídeo com legendas recapturadas para pré-treinamento, um corpus espacial de 4 milhões de amostras para ajuste fino. Também introduzimos o JumpScore, um benchmark de localização temporal voltado para ancoragem de granulação fina em movimentos de alta frequência e repetição densa, um regime sub-representado pelas avaliações de vídeo existentes. Uma capacidade de destaque do LLaVA-OV-2 é sua percepção unificada entre compreensão de vídeo, ancoragem temporal, ancoragem espacial e raciocínio de traço de manipulação. No JumpScore, o LLaVA-OneVision-2-8B atinge 74,9 mAP no JumpScore, superando o Qwen3-VL-8B (30,1) em +44,8 pontos; sob orçamentos equivalentes de tokens visuais no mesmo benchmark, as entradas de fluxo de codec melhoram a ancoragem temporal em relação à amostragem de quadros em +9,7 pontos. Em benchmarks padrão, o LLaVA-OneVision-2-8B supera ainda o Qwen3-VL-8B em +4,3 pontos médios em tarefas de vídeo, +5,3 em tarefas espaciais e +15,6 J&F médio em tarefas de rastreamento.
English
We introduce LLaVA-OneVision-2 (LLaVA-OV-2), the most capable vision-language model in the LLaVA-OneVision series to date, achieving superior performance across a broad range of multimodal benchmarks. The model builds on a native OneVision-Encoder and incorporates Windowed Attention for efficient local computation while maintaining native resolution. Its key advance is codec-stream tokenization: it treats compressed video as a continuous bit-cost stream, where bit-cost dynamics determine adaptive temporal groups, and motion-residual cues select salient spatial evidence into compact visual canvases. This allocation concentrates a limited token budget on event-bearing content, enabling more stable long-video token compression than fixed groups of pictures. A shared 3D RoPE further places codec canvases, sampled frames, and images in a unified spatiotemporal coordinate system. Furthermore, we build the LLaVA-OV-2 data and training stack around large-scale open supervision: approximately 8M re-captioned video samples for pretraining, a 4M-sample spatial corpus for fine-tuning. We also introduce JumpScore, a temporal-localization benchmark targeting fine-grained grounding in high-frequency, densely repeated motion, a regime underrepresented by existing video evaluations. A standout capability of LLaVA-OV-2 is its unified perception across video understanding, temporal grounding, spatial grounding, and manipulation-trace reasoning. On JumpScore, LLaVA-OneVision-2-8B reaches 74.9 JumpScore mAP, surpassing Qwen3-VL-8B (30.1) by +44.8 points; under matched visual-token budgets on the same benchmark, codec-stream inputs improve temporal grounding over frame sampling by +9.7 points. Across standard benchmarks, LLaVA-OneVision-2-8B further outperforms Qwen3-VL-8B by +4.3 average points on video tasks, +5.3 on spatial tasks, and +15.6 average J&F on tracking tasks.