VideoNSA: L'Attenzione Sparsa Nativa Scala la Comprensione Video
VideoNSA: Native Sparse Attention Scales Video Understanding
October 2, 2025
Autori: Enxin Song, Wenhao Chai, Shusheng Yang, Ethan Armand, Xiaojun Shan, Haiyang Xu, Jianwen Xie, Zhuowen Tu
cs.AI
Abstract
La comprensione video nei modelli linguistici multimodali rimane limitata dalla lunghezza del contesto: i modelli spesso perdono fotogrammi chiave di transizione e faticano a mantenere la coerenza su scale temporali lunghe. Per affrontare questo problema, adattiamo l'Attenzione Sparsa Nativa (NSA) ai modelli video-linguistici. Il nostro metodo, VideoNSA, adatta Qwen2.5-VL attraverso un addestramento end-to-end su un dataset di 216K istruzioni video. Utilizziamo un approccio ibrido consapevole dell'hardware per l'attenzione, preservando l'attenzione densa per il testo, mentre impieghiamo la NSA per il video. Rispetto ai baseline sparsi con compressione di token e senza addestramento, VideoNSA ottiene prestazioni migliorate nella comprensione di video lunghi, nel ragionamento temporale e nei benchmark spaziali. Un'ulteriore analisi di ablazione rivela quattro risultati chiave: (1) scalabilità affidabile fino a 128K token; (2) un'allocazione ottimale dell'attenzione globale-locale con un budget fisso; (3) modelli di utilizzo dei rami dipendenti dal compito; e (4) l'attenzione sparsa combinata apprendibile aiuta a indurre punti di attenzione dinamici.
English
Video understanding in multimodal language models remains limited by context
length: models often miss key transition frames and struggle to maintain
coherence across long time scales. To address this, we adapt Native Sparse
Attention (NSA) to video-language models. Our method, VideoNSA, adapts
Qwen2.5-VL through end-to-end training on a 216K video instruction dataset. We
employ a hardware-aware hybrid approach to attention, preserving dense
attention for text, while employing NSA for video. Compared to
token-compression and training-free sparse baselines, VideoNSA achieves
improved performance on long-video understanding, temporal reasoning, and
spatial benchmarks. Further ablation analysis reveals four key findings: (1)
reliable scaling to 128K tokens; (2) an optimal global-local attention
allocation at a fixed budget; (3) task-dependent branch usage patterns; and (4)
the learnable combined sparse attention help induce dynamic attention sinks.