LLaVA-OneVision-2: Hacia la Inteligencia Perceptual de Próxima Generación

Resumen

Presentamos LLaVA-OneVision-2 (LLaVA-OV-2), el modelo de lenguaje y visión más capaz de la serie LLaVA-OneVision hasta la fecha, que alcanza un rendimiento superior en una amplia gama de benchmarks multimodales. El modelo se basa en un codificador OneVision nativo e incorpora Atención con Ventanas para un cómputo local eficiente, manteniendo la resolución nativa. Su avance clave es la tokenización de flujo de códec: trata el video comprimido como un flujo continuo de costo de bits, donde la dinámica de costo de bits determina grupos temporales adaptativos, y las señales residuales de movimiento seleccionan evidencia espacial saliente en lienzos visuales compactos. Esta asignación concentra un presupuesto limitado de tokens en contenido portador de eventos, permitiendo una compresión de tokens de video largo más estable que los grupos fijos de imágenes. Un RoPE 3D compartido coloca además los lienzos de códec, los fotogramas muestreados y las imágenes en un sistema de coordenadas espacio-temporales unificado. Además, construimos la pila de datos y entrenamiento de LLaVA-OV-2 en torno a la supervisión abierta a gran escala: aproximadamente 8 millones de muestras de video con nuevos subtítulos para preentrenamiento y un corpus espacial de 4 millones de muestras para ajuste fino. También introducimos JumpScore, un benchmark de localización temporal orientado al anclaje detallado en movimiento de alta frecuencia y densidad repetitiva, un régimen subrepresentado por las evaluaciones de video existentes. Una capacidad destacada de LLaVA-OV-2 es su percepción unificada en comprensión de video, anclaje temporal, anclaje espacial y razonamiento de trazas de manipulación. En JumpScore, LLaVA-OneVision-2-8B alcanza un mAP de 74.9 en JumpScore, superando a Qwen3-VL-8B (30.1) en +44.8 puntos; bajo presupuestos de tokens visuales equiparados en el mismo benchmark, las entradas de flujo de códec mejoran el anclaje temporal con respecto al muestreo de fotogramas en +9.7 puntos. En benchmarks estándar, LLaVA-OneVision-2-8B supera además a Qwen3-VL-8B en un promedio de +4.3 puntos en tareas de video, +5.3 en tareas espaciales, y +15.6 puntos promedio de J&F en tareas de seguimiento.

English

We introduce LLaVA-OneVision-2 (LLaVA-OV-2), the most capable vision-language model in the LLaVA-OneVision series to date, achieving superior performance across a broad range of multimodal benchmarks. The model builds on a native OneVision-Encoder and incorporates Windowed Attention for efficient local computation while maintaining native resolution. Its key advance is codec-stream tokenization: it treats compressed video as a continuous bit-cost stream, where bit-cost dynamics determine adaptive temporal groups, and motion-residual cues select salient spatial evidence into compact visual canvases. This allocation concentrates a limited token budget on event-bearing content, enabling more stable long-video token compression than fixed groups of pictures. A shared 3D RoPE further places codec canvases, sampled frames, and images in a unified spatiotemporal coordinate system. Furthermore, we build the LLaVA-OV-2 data and training stack around large-scale open supervision: approximately 8M re-captioned video samples for pretraining, a 4M-sample spatial corpus for fine-tuning. We also introduce JumpScore, a temporal-localization benchmark targeting fine-grained grounding in high-frequency, densely repeated motion, a regime underrepresented by existing video evaluations. A standout capability of LLaVA-OV-2 is its unified perception across video understanding, temporal grounding, spatial grounding, and manipulation-trace reasoning. On JumpScore, LLaVA-OneVision-2-8B reaches 74.9 JumpScore mAP, surpassing Qwen3-VL-8B (30.1) by +44.8 points; under matched visual-token budgets on the same benchmark, codec-stream inputs improve temporal grounding over frame sampling by +9.7 points. Across standard benchmarks, LLaVA-OneVision-2-8B further outperforms Qwen3-VL-8B by +4.3 average points on video tasks, +5.3 on spatial tasks, and +15.6 average J&F on tracking tasks.