VideoNSA: Native Sparse Attention skaliert das Verständnis von Videos
VideoNSA: Native Sparse Attention Scales Video Understanding
October 2, 2025
papers.authors: Enxin Song, Wenhao Chai, Shusheng Yang, Ethan Armand, Xiaojun Shan, Haiyang Xu, Jianwen Xie, Zhuowen Tu
cs.AI
papers.abstract
Das Verständnis von Videos in multimodalen Sprachmodellen bleibt durch die Kontextlänge eingeschränkt: Modelle übersehen oft wichtige Übergangsbilder und haben Schwierigkeiten, die Kohärenz über lange Zeiträume aufrechtzuerhalten. Um dies zu adressieren, passen wir Native Sparse Attention (NSA) für Video-Sprachmodelle an. Unsere Methode, VideoNSA, adaptiert Qwen2.5-VL durch End-to-End-Training auf einem 216K Video-Instruktionsdatensatz. Wir verwenden einen hardwarebewussten hybriden Ansatz für die Aufmerksamkeit, bei dem dichte Aufmerksamkeit für Text beibehalten wird, während NSA für Videos eingesetzt wird. Im Vergleich zu Token-Kompressions- und trainingsfreien spärlichen Baselines erzielt VideoNSA verbesserte Leistungen beim Verständnis langer Videos, bei zeitlichem Schließen und räumlichen Benchmarks. Weitere Ablationsanalysen ergeben vier zentrale Erkenntnisse: (1) zuverlässige Skalierbarkeit auf 128K Tokens; (2) eine optimale globale-lokale Aufmerksamkeitsverteilung bei festem Budget; (3) aufgabenabhängige Nutzungsmuster der Zweige; und (4) die lernbare kombinierte spärliche Aufmerksamkeit hilft, dynamische Aufmerksamkeitssenken zu induzieren.
English
Video understanding in multimodal language models remains limited by context
length: models often miss key transition frames and struggle to maintain
coherence across long time scales. To address this, we adapt Native Sparse
Attention (NSA) to video-language models. Our method, VideoNSA, adapts
Qwen2.5-VL through end-to-end training on a 216K video instruction dataset. We
employ a hardware-aware hybrid approach to attention, preserving dense
attention for text, while employing NSA for video. Compared to
token-compression and training-free sparse baselines, VideoNSA achieves
improved performance on long-video understanding, temporal reasoning, and
spatial benchmarks. Further ablation analysis reveals four key findings: (1)
reliable scaling to 128K tokens; (2) an optimal global-local attention
allocation at a fixed budget; (3) task-dependent branch usage patterns; and (4)
the learnable combined sparse attention help induce dynamic attention sinks.