VideoNSA : L'Attention Native Sparse Améliore la Compréhension Vidéo

papers.abstract

La compréhension vidéo dans les modèles de langage multimodaux reste limitée par la longueur du contexte : les modèles manquent souvent des images de transition clés et peinent à maintenir la cohérence sur de longues échelles temporelles. Pour remédier à cela, nous adaptons l'Attention Sparse Native (NSA) aux modèles vidéo-langage. Notre méthode, VideoNSA, adapte Qwen2.5-VL via un entraînement de bout en bout sur un ensemble de données de 216K instructions vidéo. Nous utilisons une approche hybride d'attention consciente du matériel, préservant l'attention dense pour le texte, tout en employant la NSA pour la vidéo. Par rapport aux bases de référence de compression de tokens et d'attention sparse sans entraînement, VideoNSA obtient de meilleures performances en compréhension de vidéos longues, en raisonnement temporel et en benchmarks spatiaux. Une analyse d'ablation approfondie révèle quatre résultats clés : (1) une mise à l'échelle fiable jusqu'à 128K tokens ; (2) une allocation optimale de l'attention globale-locale avec un budget fixe ; (3) des modèles d'utilisation des branches dépendants de la tâche ; et (4) l'attention sparse combinée apprenable aide à induire des puits d'attention dynamiques.

English

Video understanding in multimodal language models remains limited by context length: models often miss key transition frames and struggle to maintain coherence across long time scales. To address this, we adapt Native Sparse Attention (NSA) to video-language models. Our method, VideoNSA, adapts Qwen2.5-VL through end-to-end training on a 216K video instruction dataset. We employ a hardware-aware hybrid approach to attention, preserving dense attention for text, while employing NSA for video. Compared to token-compression and training-free sparse baselines, VideoNSA achieves improved performance on long-video understanding, temporal reasoning, and spatial benchmarks. Further ablation analysis reveals four key findings: (1) reliable scaling to 128K tokens; (2) an optimal global-local attention allocation at a fixed budget; (3) task-dependent branch usage patterns; and (4) the learnable combined sparse attention help induce dynamic attention sinks.

VideoNSA : L'Attention Native Sparse Améliore la Compréhension Vidéo

VideoNSA: Native Sparse Attention Scales Video Understanding

papers.abstract

Support