VMoBA : Attention par mélange de blocs pour les modèles de diffusion vidéo
VMoBA: Mixture-of-Block Attention for Video Diffusion Models
June 30, 2025
Auteurs: Jianzong Wu, Liang Hou, Haotian Yang, Xin Tao, Ye Tian, Pengfei Wan, Di Zhang, Yunhai Tong
cs.AI
Résumé
La complexité quadratique des mécanismes d'attention complète constitue un goulot d'étranglement majeur pour les modèles de diffusion vidéo (VDMs) visant à générer des vidéos de longue durée et haute résolution. Bien que diverses méthodes d'attention parcimonieuse aient été proposées, beaucoup sont conçues comme des accélérateurs d'inférence sans entraînement ou ne capturent pas de manière optimale les caractéristiques spatio-temporelles uniques inhérentes aux données vidéo lorsqu'elles sont entraînées nativement. Cet article présente Video Mixture of Block Attention (VMoBA), un nouveau mécanisme d'attention parcimonieuse spécifiquement adapté aux VDMs. Motivé par une analyse approfondie des motifs d'attention dans les transformeurs vidéo pré-entraînés, qui a révélé une forte localité spatio-temporelle, une importance variable des requêtes et des niveaux de concentration spécifiques à chaque tête, VMoBA améliore le cadre original de MoBA avec trois modifications clés : (1) un schéma de partition récurrente par couches de blocs (1D-2D-3D) pour s'adapter dynamiquement à divers motifs d'attention spatio-temporels et améliorer l'efficacité ; (2) une sélection globale de blocs pour privilégier les interactions requête-clé les plus saillantes sur l'ensemble d'une tête d'attention ; et (3) une sélection de blocs basée sur un seuil pour déterminer dynamiquement le nombre de blocs traités en fonction de leur similarité cumulative. Des expériences approfondies démontrent que VMoBA accélère significativement l'entraînement des VDMs sur des séquences plus longues, atteignant une accélération de 2,92x en termes de FLOPs et de 1,48x en latence, tout en obtenant une qualité de génération comparable voire supérieure à celle de l'attention complète. De plus, VMoBA montre des performances compétitives en inférence sans entraînement, offrant une accélération de 2,40x en FLOPs et de 1,35x en latence pour la génération de vidéos haute résolution.
English
The quadratic complexity of full attention mechanisms poses a significant
bottleneck for Video Diffusion Models (VDMs) aiming to generate long-duration,
high-resolution videos. While various sparse attention methods have been
proposed, many are designed as training-free inference accelerators or do not
optimally capture the unique spatio-temporal characteristics inherent in video
data when trained natively. This paper introduces Video Mixture of Block
Attention (VMoBA), a novel sparse attention mechanism specifically adapted for
VDMs. Motivated by an in-depth analysis of attention patterns within
pre-trained video transformers, which revealed strong spatio-temporal locality,
varying query importance, and head-specific concentration levels, VMoBA
enhances the original MoBA framework with three key modifications: (1) a
layer-wise recurrent block partition scheme (1D-2D-3D) to dynamically adapt to
diverse spatio-temporal attention patterns and improve efficiency; (2) global
block selection to prioritize the most salient query-key block interactions
across an entire attention head; and (3) threshold-based block selection to
dynamically determine the number of attended blocks based on their cumulative
similarity. Extensive experiments demonstrate that VMoBA significantly
accelerates the training of VDMs on longer sequences, achieving 2.92x FLOPs and
1.48x latency speedup, while attaining comparable or even superior generation
quality to full attention. Furthermore, VMoBA exhibits competitive performance
in training-free inference, offering 2.40x FLOPs and 1.35x latency speedup for
high-res video generation.