ChatPaper.aiChatPaper

VideoNSA: L'Attenzione Sparsa Nativa Scala la Comprensione Video

VideoNSA: Native Sparse Attention Scales Video Understanding

October 2, 2025
Autori: Enxin Song, Wenhao Chai, Shusheng Yang, Ethan Armand, Xiaojun Shan, Haiyang Xu, Jianwen Xie, Zhuowen Tu
cs.AI

Abstract

La comprensione video nei modelli linguistici multimodali rimane limitata dalla lunghezza del contesto: i modelli spesso perdono fotogrammi chiave di transizione e faticano a mantenere la coerenza su scale temporali lunghe. Per affrontare questo problema, adattiamo l'Attenzione Sparsa Nativa (NSA) ai modelli video-linguistici. Il nostro metodo, VideoNSA, adatta Qwen2.5-VL attraverso un addestramento end-to-end su un dataset di 216K istruzioni video. Utilizziamo un approccio ibrido consapevole dell'hardware per l'attenzione, preservando l'attenzione densa per il testo, mentre impieghiamo la NSA per il video. Rispetto ai baseline sparsi con compressione di token e senza addestramento, VideoNSA ottiene prestazioni migliorate nella comprensione di video lunghi, nel ragionamento temporale e nei benchmark spaziali. Un'ulteriore analisi di ablazione rivela quattro risultati chiave: (1) scalabilità affidabile fino a 128K token; (2) un'allocazione ottimale dell'attenzione globale-locale con un budget fisso; (3) modelli di utilizzo dei rami dipendenti dal compito; e (4) l'attenzione sparsa combinata apprendibile aiuta a indurre punti di attenzione dinamici.
English
Video understanding in multimodal language models remains limited by context length: models often miss key transition frames and struggle to maintain coherence across long time scales. To address this, we adapt Native Sparse Attention (NSA) to video-language models. Our method, VideoNSA, adapts Qwen2.5-VL through end-to-end training on a 216K video instruction dataset. We employ a hardware-aware hybrid approach to attention, preserving dense attention for text, while employing NSA for video. Compared to token-compression and training-free sparse baselines, VideoNSA achieves improved performance on long-video understanding, temporal reasoning, and spatial benchmarks. Further ablation analysis reveals four key findings: (1) reliable scaling to 128K tokens; (2) an optimal global-local attention allocation at a fixed budget; (3) task-dependent branch usage patterns; and (4) the learnable combined sparse attention help induce dynamic attention sinks.
PDF92October 3, 2025