VMoBA: Смешанное внимание на уровне блоков для видео-диффузионных моделей

Аннотация

Квадратичная сложность механизмов полного внимания представляет собой значительное узкое место для моделей диффузии видео (Video Diffusion Models, VDMs), стремящихся генерировать длительные видео высокого разрешения. Хотя было предложено множество методов разреженного внимания, многие из них разработаны как ускорители вывода без обучения или не оптимально учитывают уникальные пространственно-временные характеристики, присущие видеоданным, при нативном обучении. В данной статье представлен Video Mixture of Block Attention (VMoBA) — новый механизм разреженного внимания, специально адаптированный для VDMs. Вдохновленный глубоким анализом паттернов внимания в предобученных видео-трансформерах, который выявил сильную пространственно-временную локальность, изменчивую важность запросов и специфичные для голов уровни концентрации, VMoBA улучшает оригинальную структуру MoBA с помощью трех ключевых модификаций: (1) послойная рекуррентная схема разделения блоков (1D-2D-3D) для динамической адаптации к различным пространственно-временным паттернам внимания и повышения эффективности; (2) глобальный выбор блоков для приоритизации наиболее значимых взаимодействий блоков запросов и ключей в рамках всей головы внимания; и (3) выбор блоков на основе порога для динамического определения количества обрабатываемых блоков в зависимости от их совокупного сходства. Многочисленные эксперименты демонстрируют, что VMoBA значительно ускоряет обучение VDMs на длинных последовательностях, достигая ускорения в 2.92x по FLOPs и 1.48x по задержке, при этом обеспечивая сопоставимое или даже превосходящее качество генерации по сравнению с полным вниманием. Кроме того, VMoBA демонстрирует конкурентоспособную производительность в выводе без обучения, предлагая ускорение в 2.40x по FLOPs и 1.35x по задержке для генерации видео высокого разрешения.

English

The quadratic complexity of full attention mechanisms poses a significant bottleneck for Video Diffusion Models (VDMs) aiming to generate long-duration, high-resolution videos. While various sparse attention methods have been proposed, many are designed as training-free inference accelerators or do not optimally capture the unique spatio-temporal characteristics inherent in video data when trained natively. This paper introduces Video Mixture of Block Attention (VMoBA), a novel sparse attention mechanism specifically adapted for VDMs. Motivated by an in-depth analysis of attention patterns within pre-trained video transformers, which revealed strong spatio-temporal locality, varying query importance, and head-specific concentration levels, VMoBA enhances the original MoBA framework with three key modifications: (1) a layer-wise recurrent block partition scheme (1D-2D-3D) to dynamically adapt to diverse spatio-temporal attention patterns and improve efficiency; (2) global block selection to prioritize the most salient query-key block interactions across an entire attention head; and (3) threshold-based block selection to dynamically determine the number of attended blocks based on their cumulative similarity. Extensive experiments demonstrate that VMoBA significantly accelerates the training of VDMs on longer sequences, achieving 2.92x FLOPs and 1.48x latency speedup, while attaining comparable or even superior generation quality to full attention. Furthermore, VMoBA exhibits competitive performance in training-free inference, offering 2.40x FLOPs and 1.35x latency speedup for high-res video generation.

VMoBA: Смешанное внимание на уровне блоков для видео-диффузионных моделей

VMoBA: Mixture-of-Block Attention for Video Diffusion Models

Аннотация

Support