VideoNSA: Atención Nativa Dispersa Escala la Comprensión de Video
VideoNSA: Native Sparse Attention Scales Video Understanding
October 2, 2025
Autores: Enxin Song, Wenhao Chai, Shusheng Yang, Ethan Armand, Xiaojun Shan, Haiyang Xu, Jianwen Xie, Zhuowen Tu
cs.AI
Resumen
La comprensión de videos en modelos de lenguaje multimodal sigue estando limitada por la longitud del contexto: los modelos a menudo pierden fotogramas clave de transición y tienen dificultades para mantener la coherencia a lo largo de escalas de tiempo prolongadas. Para abordar este problema, adaptamos la Atención Dispersa Nativa (NSA, por sus siglas en inglés) a modelos de video-lenguaje. Nuestro método, VideoNSA, adapta Qwen2.5-VL mediante un entrenamiento de extremo a extremo en un conjunto de datos de instrucciones de video de 216K. Empleamos un enfoque híbrido consciente del hardware para la atención, preservando la atención densa para el texto mientras utilizamos NSA para el video. En comparación con líneas base de compresión de tokens y dispersión sin entrenamiento, VideoNSA logra un mejor rendimiento en la comprensión de videos largos, el razonamiento temporal y los puntos de referencia espaciales. Un análisis de ablación adicional revela cuatro hallazgos clave: (1) escalabilidad confiable hasta 128K tokens; (2) una asignación óptima de atención global-local con un presupuesto fijo; (3) patrones de uso de ramas dependientes de la tarea; y (4) la atención dispersa combinada aprendible ayuda a inducir sumideros de atención dinámicos.
English
Video understanding in multimodal language models remains limited by context
length: models often miss key transition frames and struggle to maintain
coherence across long time scales. To address this, we adapt Native Sparse
Attention (NSA) to video-language models. Our method, VideoNSA, adapts
Qwen2.5-VL through end-to-end training on a 216K video instruction dataset. We
employ a hardware-aware hybrid approach to attention, preserving dense
attention for text, while employing NSA for video. Compared to
token-compression and training-free sparse baselines, VideoNSA achieves
improved performance on long-video understanding, temporal reasoning, and
spatial benchmarks. Further ablation analysis reveals four key findings: (1)
reliable scaling to 128K tokens; (2) an optimal global-local attention
allocation at a fixed budget; (3) task-dependent branch usage patterns; and (4)
the learnable combined sparse attention help induce dynamic attention sinks.