ChatPaper.aiChatPaper

VideoNSA: Native Sparse Attention skaliert das Verständnis von Videos

VideoNSA: Native Sparse Attention Scales Video Understanding

October 2, 2025
papers.authors: Enxin Song, Wenhao Chai, Shusheng Yang, Ethan Armand, Xiaojun Shan, Haiyang Xu, Jianwen Xie, Zhuowen Tu
cs.AI

papers.abstract

Das Verständnis von Videos in multimodalen Sprachmodellen bleibt durch die Kontextlänge eingeschränkt: Modelle übersehen oft wichtige Übergangsbilder und haben Schwierigkeiten, die Kohärenz über lange Zeiträume aufrechtzuerhalten. Um dies zu adressieren, passen wir Native Sparse Attention (NSA) für Video-Sprachmodelle an. Unsere Methode, VideoNSA, adaptiert Qwen2.5-VL durch End-to-End-Training auf einem 216K Video-Instruktionsdatensatz. Wir verwenden einen hardwarebewussten hybriden Ansatz für die Aufmerksamkeit, bei dem dichte Aufmerksamkeit für Text beibehalten wird, während NSA für Videos eingesetzt wird. Im Vergleich zu Token-Kompressions- und trainingsfreien spärlichen Baselines erzielt VideoNSA verbesserte Leistungen beim Verständnis langer Videos, bei zeitlichem Schließen und räumlichen Benchmarks. Weitere Ablationsanalysen ergeben vier zentrale Erkenntnisse: (1) zuverlässige Skalierbarkeit auf 128K Tokens; (2) eine optimale globale-lokale Aufmerksamkeitsverteilung bei festem Budget; (3) aufgabenabhängige Nutzungsmuster der Zweige; und (4) die lernbare kombinierte spärliche Aufmerksamkeit hilft, dynamische Aufmerksamkeitssenken zu induzieren.
English
Video understanding in multimodal language models remains limited by context length: models often miss key transition frames and struggle to maintain coherence across long time scales. To address this, we adapt Native Sparse Attention (NSA) to video-language models. Our method, VideoNSA, adapts Qwen2.5-VL through end-to-end training on a 216K video instruction dataset. We employ a hardware-aware hybrid approach to attention, preserving dense attention for text, while employing NSA for video. Compared to token-compression and training-free sparse baselines, VideoNSA achieves improved performance on long-video understanding, temporal reasoning, and spatial benchmarks. Further ablation analysis reveals four key findings: (1) reliable scaling to 128K tokens; (2) an optimal global-local attention allocation at a fixed budget; (3) task-dependent branch usage patterns; and (4) the learnable combined sparse attention help induce dynamic attention sinks.
PDF92October 3, 2025