ChatPaper.aiChatPaper

VMoBA: Atenção de Mistura de Blocos para Modelos de Difusão de Vídeo

VMoBA: Mixture-of-Block Attention for Video Diffusion Models

June 30, 2025
Autores: Jianzong Wu, Liang Hou, Haotian Yang, Xin Tao, Ye Tian, Pengfei Wan, Di Zhang, Yunhai Tong
cs.AI

Resumo

A complexidade quadrática dos mecanismos de atenção completa representa um gargalo significativo para Modelos de Difusão de Vídeo (VDMs) que visam gerar vídeos de longa duração e alta resolução. Embora vários métodos de atenção esparsa tenham sido propostos, muitos são projetados como aceleradores de inferência sem treinamento ou não capturam de forma ideal as características espacio-temporais únicas inerentes aos dados de vídeo quando treinados nativamente. Este artigo introduz o Video Mixture of Block Attention (VMoBA), um novo mecanismo de atenção esparsa especificamente adaptado para VDMs. Motivado por uma análise detalhada dos padrões de atenção em transformadores de vídeo pré-treinados, que revelou forte localidade espaço-temporal, importância variável das consultas e níveis de concentração específicos por cabeça, o VMoBA melhora a estrutura original do MoBA com três modificações principais: (1) um esquema de partição de blocos recorrente por camada (1D-2D-3D) para se adaptar dinamicamente a diversos padrões de atenção espaço-temporal e melhorar a eficiência; (2) seleção global de blocos para priorizar as interações mais salientes entre blocos de consulta-chave em toda uma cabeça de atenção; e (3) seleção de blocos baseada em limiar para determinar dinamicamente o número de blocos atendidos com base em sua similaridade cumulativa. Experimentos extensos demonstram que o VMoBA acelera significativamente o treinamento de VDMs em sequências mais longas, alcançando uma aceleração de 2.92x em FLOPs e 1.48x em latência, enquanto obtém qualidade de geração comparável ou até superior à atenção completa. Além disso, o VMoBA exibe desempenho competitivo em inferência sem treinamento, oferecendo uma aceleração de 2.40x em FLOPs e 1.35x em latência para geração de vídeos de alta resolução.
English
The quadratic complexity of full attention mechanisms poses a significant bottleneck for Video Diffusion Models (VDMs) aiming to generate long-duration, high-resolution videos. While various sparse attention methods have been proposed, many are designed as training-free inference accelerators or do not optimally capture the unique spatio-temporal characteristics inherent in video data when trained natively. This paper introduces Video Mixture of Block Attention (VMoBA), a novel sparse attention mechanism specifically adapted for VDMs. Motivated by an in-depth analysis of attention patterns within pre-trained video transformers, which revealed strong spatio-temporal locality, varying query importance, and head-specific concentration levels, VMoBA enhances the original MoBA framework with three key modifications: (1) a layer-wise recurrent block partition scheme (1D-2D-3D) to dynamically adapt to diverse spatio-temporal attention patterns and improve efficiency; (2) global block selection to prioritize the most salient query-key block interactions across an entire attention head; and (3) threshold-based block selection to dynamically determine the number of attended blocks based on their cumulative similarity. Extensive experiments demonstrate that VMoBA significantly accelerates the training of VDMs on longer sequences, achieving 2.92x FLOPs and 1.48x latency speedup, while attaining comparable or even superior generation quality to full attention. Furthermore, VMoBA exhibits competitive performance in training-free inference, offering 2.40x FLOPs and 1.35x latency speedup for high-res video generation.
PDF301July 1, 2025