VMoBA: Смешанное внимание на уровне блоков для видео-диффузионных моделей
VMoBA: Mixture-of-Block Attention for Video Diffusion Models
June 30, 2025
Авторы: Jianzong Wu, Liang Hou, Haotian Yang, Xin Tao, Ye Tian, Pengfei Wan, Di Zhang, Yunhai Tong
cs.AI
Аннотация
Квадратичная сложность механизмов полного внимания представляет собой значительное узкое место для моделей диффузии видео (Video Diffusion Models, VDMs), стремящихся генерировать длительные видео высокого разрешения. Хотя было предложено множество методов разреженного внимания, многие из них разработаны как ускорители вывода без обучения или не оптимально учитывают уникальные пространственно-временные характеристики, присущие видеоданным, при нативном обучении. В данной статье представлен Video Mixture of Block Attention (VMoBA) — новый механизм разреженного внимания, специально адаптированный для VDMs. Вдохновленный глубоким анализом паттернов внимания в предобученных видео-трансформерах, который выявил сильную пространственно-временную локальность, изменчивую важность запросов и специфичные для голов уровни концентрации, VMoBA улучшает оригинальную структуру MoBA с помощью трех ключевых модификаций: (1) послойная рекуррентная схема разделения блоков (1D-2D-3D) для динамической адаптации к различным пространственно-временным паттернам внимания и повышения эффективности; (2) глобальный выбор блоков для приоритизации наиболее значимых взаимодействий блоков запросов и ключей в рамках всей головы внимания; и (3) выбор блоков на основе порога для динамического определения количества обрабатываемых блоков в зависимости от их совокупного сходства. Многочисленные эксперименты демонстрируют, что VMoBA значительно ускоряет обучение VDMs на длинных последовательностях, достигая ускорения в 2.92x по FLOPs и 1.48x по задержке, при этом обеспечивая сопоставимое или даже превосходящее качество генерации по сравнению с полным вниманием. Кроме того, VMoBA демонстрирует конкурентоспособную производительность в выводе без обучения, предлагая ускорение в 2.40x по FLOPs и 1.35x по задержке для генерации видео высокого разрешения.
English
The quadratic complexity of full attention mechanisms poses a significant
bottleneck for Video Diffusion Models (VDMs) aiming to generate long-duration,
high-resolution videos. While various sparse attention methods have been
proposed, many are designed as training-free inference accelerators or do not
optimally capture the unique spatio-temporal characteristics inherent in video
data when trained natively. This paper introduces Video Mixture of Block
Attention (VMoBA), a novel sparse attention mechanism specifically adapted for
VDMs. Motivated by an in-depth analysis of attention patterns within
pre-trained video transformers, which revealed strong spatio-temporal locality,
varying query importance, and head-specific concentration levels, VMoBA
enhances the original MoBA framework with three key modifications: (1) a
layer-wise recurrent block partition scheme (1D-2D-3D) to dynamically adapt to
diverse spatio-temporal attention patterns and improve efficiency; (2) global
block selection to prioritize the most salient query-key block interactions
across an entire attention head; and (3) threshold-based block selection to
dynamically determine the number of attended blocks based on their cumulative
similarity. Extensive experiments demonstrate that VMoBA significantly
accelerates the training of VDMs on longer sequences, achieving 2.92x FLOPs and
1.48x latency speedup, while attaining comparable or even superior generation
quality to full attention. Furthermore, VMoBA exhibits competitive performance
in training-free inference, offering 2.40x FLOPs and 1.35x latency speedup for
high-res video generation.