VMoBA : Attention par mélange de blocs pour les modèles de diffusion vidéo

papers.abstract

La complexité quadratique des mécanismes d'attention complète constitue un goulot d'étranglement majeur pour les modèles de diffusion vidéo (VDMs) visant à générer des vidéos de longue durée et haute résolution. Bien que diverses méthodes d'attention parcimonieuse aient été proposées, beaucoup sont conçues comme des accélérateurs d'inférence sans entraînement ou ne capturent pas de manière optimale les caractéristiques spatio-temporelles uniques inhérentes aux données vidéo lorsqu'elles sont entraînées nativement. Cet article présente Video Mixture of Block Attention (VMoBA), un nouveau mécanisme d'attention parcimonieuse spécifiquement adapté aux VDMs. Motivé par une analyse approfondie des motifs d'attention dans les transformeurs vidéo pré-entraînés, qui a révélé une forte localité spatio-temporelle, une importance variable des requêtes et des niveaux de concentration spécifiques à chaque tête, VMoBA améliore le cadre original de MoBA avec trois modifications clés : (1) un schéma de partition récurrente par couches de blocs (1D-2D-3D) pour s'adapter dynamiquement à divers motifs d'attention spatio-temporels et améliorer l'efficacité ; (2) une sélection globale de blocs pour privilégier les interactions requête-clé les plus saillantes sur l'ensemble d'une tête d'attention ; et (3) une sélection de blocs basée sur un seuil pour déterminer dynamiquement le nombre de blocs traités en fonction de leur similarité cumulative. Des expériences approfondies démontrent que VMoBA accélère significativement l'entraînement des VDMs sur des séquences plus longues, atteignant une accélération de 2,92x en termes de FLOPs et de 1,48x en latence, tout en obtenant une qualité de génération comparable voire supérieure à celle de l'attention complète. De plus, VMoBA montre des performances compétitives en inférence sans entraînement, offrant une accélération de 2,40x en FLOPs et de 1,35x en latence pour la génération de vidéos haute résolution.

English

The quadratic complexity of full attention mechanisms poses a significant bottleneck for Video Diffusion Models (VDMs) aiming to generate long-duration, high-resolution videos. While various sparse attention methods have been proposed, many are designed as training-free inference accelerators or do not optimally capture the unique spatio-temporal characteristics inherent in video data when trained natively. This paper introduces Video Mixture of Block Attention (VMoBA), a novel sparse attention mechanism specifically adapted for VDMs. Motivated by an in-depth analysis of attention patterns within pre-trained video transformers, which revealed strong spatio-temporal locality, varying query importance, and head-specific concentration levels, VMoBA enhances the original MoBA framework with three key modifications: (1) a layer-wise recurrent block partition scheme (1D-2D-3D) to dynamically adapt to diverse spatio-temporal attention patterns and improve efficiency; (2) global block selection to prioritize the most salient query-key block interactions across an entire attention head; and (3) threshold-based block selection to dynamically determine the number of attended blocks based on their cumulative similarity. Extensive experiments demonstrate that VMoBA significantly accelerates the training of VDMs on longer sequences, achieving 2.92x FLOPs and 1.48x latency speedup, while attaining comparable or even superior generation quality to full attention. Furthermore, VMoBA exhibits competitive performance in training-free inference, offering 2.40x FLOPs and 1.35x latency speedup for high-res video generation.

VMoBA : Attention par mélange de blocs pour les modèles de diffusion vidéo

VMoBA: Mixture-of-Block Attention for Video Diffusion Models

papers.abstract

Support