ChatPaper.aiChatPaper

VideoNSA: Atenção Nativa Esparsa Escalona a Compreensão de Vídeos

VideoNSA: Native Sparse Attention Scales Video Understanding

October 2, 2025
Autores: Enxin Song, Wenhao Chai, Shusheng Yang, Ethan Armand, Xiaojun Shan, Haiyang Xu, Jianwen Xie, Zhuowen Tu
cs.AI

Resumo

A compreensão de vídeo em modelos de linguagem multimodal continua limitada pelo comprimento do contexto: os modelos frequentemente perdem quadros-chave de transição e lutam para manter a coerência em escalas de tempo longas. Para abordar esse problema, adaptamos a Atenção Esparsa Nativa (NSA, na sigla em inglês) para modelos de vídeo-linguagem. Nosso método, VideoNSA, adapta o Qwen2.5-VL por meio de treinamento de ponta a ponta em um conjunto de dados de instrução de vídeo com 216K amostras. Empregamos uma abordagem híbrida de atenção consciente do hardware, preservando a atenção densa para texto, enquanto utilizamos NSA para vídeo. Em comparação com baselines de compressão de tokens e esparsidade sem treinamento, o VideoNSA alcança um desempenho aprimorado na compreensão de vídeos longos, raciocínio temporal e benchmarks espaciais. Uma análise de ablação adicional revela quatro descobertas principais: (1) escalabilidade confiável para 128K tokens; (2) uma alocação ótima de atenção global-local com um orçamento fixo; (3) padrões de uso de ramificação dependentes da tarefa; e (4) a atenção esparsa combinada e aprendível ajuda a induzir pontos de atenção dinâmicos.
English
Video understanding in multimodal language models remains limited by context length: models often miss key transition frames and struggle to maintain coherence across long time scales. To address this, we adapt Native Sparse Attention (NSA) to video-language models. Our method, VideoNSA, adapts Qwen2.5-VL through end-to-end training on a 216K video instruction dataset. We employ a hardware-aware hybrid approach to attention, preserving dense attention for text, while employing NSA for video. Compared to token-compression and training-free sparse baselines, VideoNSA achieves improved performance on long-video understanding, temporal reasoning, and spatial benchmarks. Further ablation analysis reveals four key findings: (1) reliable scaling to 128K tokens; (2) an optimal global-local attention allocation at a fixed budget; (3) task-dependent branch usage patterns; and (4) the learnable combined sparse attention help induce dynamic attention sinks.
PDF92October 3, 2025