VideoNSA : L'Attention Native Sparse Améliore la Compréhension Vidéo
VideoNSA: Native Sparse Attention Scales Video Understanding
October 2, 2025
papers.authors: Enxin Song, Wenhao Chai, Shusheng Yang, Ethan Armand, Xiaojun Shan, Haiyang Xu, Jianwen Xie, Zhuowen Tu
cs.AI
papers.abstract
La compréhension vidéo dans les modèles de langage multimodaux reste limitée par la longueur du contexte : les modèles manquent souvent des images de transition clés et peinent à maintenir la cohérence sur de longues échelles temporelles. Pour remédier à cela, nous adaptons l'Attention Sparse Native (NSA) aux modèles vidéo-langage. Notre méthode, VideoNSA, adapte Qwen2.5-VL via un entraînement de bout en bout sur un ensemble de données de 216K instructions vidéo. Nous utilisons une approche hybride d'attention consciente du matériel, préservant l'attention dense pour le texte, tout en employant la NSA pour la vidéo. Par rapport aux bases de référence de compression de tokens et d'attention sparse sans entraînement, VideoNSA obtient de meilleures performances en compréhension de vidéos longues, en raisonnement temporel et en benchmarks spatiaux. Une analyse d'ablation approfondie révèle quatre résultats clés : (1) une mise à l'échelle fiable jusqu'à 128K tokens ; (2) une allocation optimale de l'attention globale-locale avec un budget fixe ; (3) des modèles d'utilisation des branches dépendants de la tâche ; et (4) l'attention sparse combinée apprenable aide à induire des puits d'attention dynamiques.
English
Video understanding in multimodal language models remains limited by context
length: models often miss key transition frames and struggle to maintain
coherence across long time scales. To address this, we adapt Native Sparse
Attention (NSA) to video-language models. Our method, VideoNSA, adapts
Qwen2.5-VL through end-to-end training on a 216K video instruction dataset. We
employ a hardware-aware hybrid approach to attention, preserving dense
attention for text, while employing NSA for video. Compared to
token-compression and training-free sparse baselines, VideoNSA achieves
improved performance on long-video understanding, temporal reasoning, and
spatial benchmarks. Further ablation analysis reveals four key findings: (1)
reliable scaling to 128K tokens; (2) an optimal global-local attention
allocation at a fixed budget; (3) task-dependent branch usage patterns; and (4)
the learnable combined sparse attention help induce dynamic attention sinks.