ChatPaper.aiChatPaper

VideoNSA: Native Sparse Attention Schaalbaarheid voor Videobegrip

VideoNSA: Native Sparse Attention Scales Video Understanding

October 2, 2025
Auteurs: Enxin Song, Wenhao Chai, Shusheng Yang, Ethan Armand, Xiaojun Shan, Haiyang Xu, Jianwen Xie, Zhuowen Tu
cs.AI

Samenvatting

Video-begrip in multimodale taalmodellen blijft beperkt door de contextlengte: modellen missen vaak cruciale overgangsframes en hebben moeite om samenhang te behouden over lange tijdschalen. Om dit aan te pakken, passen we Native Sparse Attention (NSA) aan voor video-taalmodellen. Onze methode, VideoNSA, past Qwen2.5-VL aan via end-to-end training op een dataset van 216K video-instructies. We gebruiken een hardwarebewuste hybride benadering voor aandacht, waarbij we dichte aandacht behouden voor tekst, terwijl we NSA toepassen voor video. Vergeleken met tokencompressie en trainingsvrije sparse basislijnen, behaalt VideoNSA verbeterde prestaties op het gebied van lang-video-begrip, temporeel redeneren en ruimtelijke benchmarks. Verdere ablatie-analyse onthult vier belangrijke bevindingen: (1) betrouwbare schaalbaarheid tot 128K tokens; (2) een optimale globale-lokale aandachtstoewijzing bij een vast budget; (3) taakafhankelijke gebruikspatronen van takken; en (4) de leerbare gecombineerde sparse aandacht helpt bij het induceren van dynamische aandachtspunten.
English
Video understanding in multimodal language models remains limited by context length: models often miss key transition frames and struggle to maintain coherence across long time scales. To address this, we adapt Native Sparse Attention (NSA) to video-language models. Our method, VideoNSA, adapts Qwen2.5-VL through end-to-end training on a 216K video instruction dataset. We employ a hardware-aware hybrid approach to attention, preserving dense attention for text, while employing NSA for video. Compared to token-compression and training-free sparse baselines, VideoNSA achieves improved performance on long-video understanding, temporal reasoning, and spatial benchmarks. Further ablation analysis reveals four key findings: (1) reliable scaling to 128K tokens; (2) an optimal global-local attention allocation at a fixed budget; (3) task-dependent branch usage patterns; and (4) the learnable combined sparse attention help induce dynamic attention sinks.
PDF92October 3, 2025