ChatPaper.aiChatPaper

VideoNSA: Atención Nativa Dispersa Escala la Comprensión de Video

VideoNSA: Native Sparse Attention Scales Video Understanding

October 2, 2025
Autores: Enxin Song, Wenhao Chai, Shusheng Yang, Ethan Armand, Xiaojun Shan, Haiyang Xu, Jianwen Xie, Zhuowen Tu
cs.AI

Resumen

La comprensión de videos en modelos de lenguaje multimodal sigue estando limitada por la longitud del contexto: los modelos a menudo pierden fotogramas clave de transición y tienen dificultades para mantener la coherencia a lo largo de escalas de tiempo prolongadas. Para abordar este problema, adaptamos la Atención Dispersa Nativa (NSA, por sus siglas en inglés) a modelos de video-lenguaje. Nuestro método, VideoNSA, adapta Qwen2.5-VL mediante un entrenamiento de extremo a extremo en un conjunto de datos de instrucciones de video de 216K. Empleamos un enfoque híbrido consciente del hardware para la atención, preservando la atención densa para el texto mientras utilizamos NSA para el video. En comparación con líneas base de compresión de tokens y dispersión sin entrenamiento, VideoNSA logra un mejor rendimiento en la comprensión de videos largos, el razonamiento temporal y los puntos de referencia espaciales. Un análisis de ablación adicional revela cuatro hallazgos clave: (1) escalabilidad confiable hasta 128K tokens; (2) una asignación óptima de atención global-local con un presupuesto fijo; (3) patrones de uso de ramas dependientes de la tarea; y (4) la atención dispersa combinada aprendible ayuda a inducir sumideros de atención dinámicos.
English
Video understanding in multimodal language models remains limited by context length: models often miss key transition frames and struggle to maintain coherence across long time scales. To address this, we adapt Native Sparse Attention (NSA) to video-language models. Our method, VideoNSA, adapts Qwen2.5-VL through end-to-end training on a 216K video instruction dataset. We employ a hardware-aware hybrid approach to attention, preserving dense attention for text, while employing NSA for video. Compared to token-compression and training-free sparse baselines, VideoNSA achieves improved performance on long-video understanding, temporal reasoning, and spatial benchmarks. Further ablation analysis reveals four key findings: (1) reliable scaling to 128K tokens; (2) an optimal global-local attention allocation at a fixed budget; (3) task-dependent branch usage patterns; and (4) the learnable combined sparse attention help induce dynamic attention sinks.
PDF92October 3, 2025