ChatPaper.aiChatPaper

VideoNSA: Встроенное разреженное внимание масштабирует понимание видео

VideoNSA: Native Sparse Attention Scales Video Understanding

October 2, 2025
Авторы: Enxin Song, Wenhao Chai, Shusheng Yang, Ethan Armand, Xiaojun Shan, Haiyang Xu, Jianwen Xie, Zhuowen Tu
cs.AI

Аннотация

Понимание видео в мультимодальных языковых моделях остается ограниченным из-за длины контекста: модели часто пропускают ключевые переходные кадры и испытывают трудности с поддержанием связности на длительных временных масштабах. Для решения этой проблемы мы адаптируем Native Sparse Attention (NSA) для видео-языковых моделей. Наш метод, VideoNSA, адаптирует Qwen2.5-VL путем сквозного обучения на наборе данных из 216K видеоинструкций. Мы используем аппаратно-ориентированный гибридный подход к вниманию, сохраняя плотное внимание для текста, применяя NSA для видео. По сравнению с базовыми методами сжатия токенов и обучением без разреженности, VideoNSA демонстрирует улучшенные результаты в понимании длинных видео, временном рассуждении и пространственных тестах. Дополнительный анализ выявил четыре ключевых результата: (1) надежное масштабирование до 128K токенов; (2) оптимальное распределение глобально-локального внимания при фиксированном бюджете; (3) зависимость использования ветвей от задачи; и (4) обучаемая комбинированная разреженная внимательность помогает формировать динамические точки внимания.
English
Video understanding in multimodal language models remains limited by context length: models often miss key transition frames and struggle to maintain coherence across long time scales. To address this, we adapt Native Sparse Attention (NSA) to video-language models. Our method, VideoNSA, adapts Qwen2.5-VL through end-to-end training on a 216K video instruction dataset. We employ a hardware-aware hybrid approach to attention, preserving dense attention for text, while employing NSA for video. Compared to token-compression and training-free sparse baselines, VideoNSA achieves improved performance on long-video understanding, temporal reasoning, and spatial benchmarks. Further ablation analysis reveals four key findings: (1) reliable scaling to 128K tokens; (2) an optimal global-local attention allocation at a fixed budget; (3) task-dependent branch usage patterns; and (4) the learnable combined sparse attention help induce dynamic attention sinks.
PDF92October 3, 2025