VMoBA: Atenção de Mistura de Blocos para Modelos de Difusão de Vídeo
VMoBA: Mixture-of-Block Attention for Video Diffusion Models
June 30, 2025
Autores: Jianzong Wu, Liang Hou, Haotian Yang, Xin Tao, Ye Tian, Pengfei Wan, Di Zhang, Yunhai Tong
cs.AI
Resumo
A complexidade quadrática dos mecanismos de atenção completa representa um
gargalo significativo para Modelos de Difusão de Vídeo (VDMs) que visam gerar
vídeos de longa duração e alta resolução. Embora vários métodos de atenção
esparsa tenham sido propostos, muitos são projetados como aceleradores de
inferência sem treinamento ou não capturam de forma ideal as características
espacio-temporais únicas inerentes aos dados de vídeo quando treinados
nativamente. Este artigo introduz o Video Mixture of Block Attention (VMoBA),
um novo mecanismo de atenção esparsa especificamente adaptado para VDMs.
Motivado por uma análise detalhada dos padrões de atenção em transformadores de
vídeo pré-treinados, que revelou forte localidade espaço-temporal, importância
variável das consultas e níveis de concentração específicos por cabeça, o VMoBA
melhora a estrutura original do MoBA com três modificações principais: (1) um
esquema de partição de blocos recorrente por camada (1D-2D-3D) para se adaptar
dinamicamente a diversos padrões de atenção espaço-temporal e melhorar a
eficiência; (2) seleção global de blocos para priorizar as interações mais
salientes entre blocos de consulta-chave em toda uma cabeça de atenção; e (3)
seleção de blocos baseada em limiar para determinar dinamicamente o número de
blocos atendidos com base em sua similaridade cumulativa. Experimentos extensos
demonstram que o VMoBA acelera significativamente o treinamento de VDMs em
sequências mais longas, alcançando uma aceleração de 2.92x em FLOPs e 1.48x em
latência, enquanto obtém qualidade de geração comparável ou até superior à
atenção completa. Além disso, o VMoBA exibe desempenho competitivo em inferência
sem treinamento, oferecendo uma aceleração de 2.40x em FLOPs e 1.35x em latência
para geração de vídeos de alta resolução.
English
The quadratic complexity of full attention mechanisms poses a significant
bottleneck for Video Diffusion Models (VDMs) aiming to generate long-duration,
high-resolution videos. While various sparse attention methods have been
proposed, many are designed as training-free inference accelerators or do not
optimally capture the unique spatio-temporal characteristics inherent in video
data when trained natively. This paper introduces Video Mixture of Block
Attention (VMoBA), a novel sparse attention mechanism specifically adapted for
VDMs. Motivated by an in-depth analysis of attention patterns within
pre-trained video transformers, which revealed strong spatio-temporal locality,
varying query importance, and head-specific concentration levels, VMoBA
enhances the original MoBA framework with three key modifications: (1) a
layer-wise recurrent block partition scheme (1D-2D-3D) to dynamically adapt to
diverse spatio-temporal attention patterns and improve efficiency; (2) global
block selection to prioritize the most salient query-key block interactions
across an entire attention head; and (3) threshold-based block selection to
dynamically determine the number of attended blocks based on their cumulative
similarity. Extensive experiments demonstrate that VMoBA significantly
accelerates the training of VDMs on longer sequences, achieving 2.92x FLOPs and
1.48x latency speedup, while attaining comparable or even superior generation
quality to full attention. Furthermore, VMoBA exhibits competitive performance
in training-free inference, offering 2.40x FLOPs and 1.35x latency speedup for
high-res video generation.