VMoBA: Mixture-of-Block-Attention für Video-Diffusionsmodelle

papers.abstract

Die quadratische Komplexität von vollständigen Aufmerksamkeitsmechanismen stellt ein erhebliches Hindernis für Video-Diffusionsmodelle (VDMs) dar, die darauf abzielen, langandauernde, hochauflösende Videos zu generieren. Obwohl verschiedene spärliche Aufmerksamkeitsmethoden vorgeschlagen wurden, sind viele als trainingsfreie Inferenzbeschleuniger konzipiert oder erfassen die einzigartigen räumlich-zeitlichen Eigenschaften von Videodaten bei nativem Training nicht optimal. Dieses Papier stellt Video Mixture of Block Attention (VMoBA) vor, einen neuartigen spärlichen Aufmerksamkeitsmechanismus, der speziell für VDMs angepasst ist. Motiviert durch eine detaillierte Analyse von Aufmerksamkeitsmustern in vortrainierten Video-Transformatoren, die starke räumlich-zeitliche Lokalität, variierende Wichtigkeit von Abfragen und kopf-spezifische Konzentrationsniveale offenbarte, verbessert VMoBA das ursprüngliche MoBA-Framework mit drei wesentlichen Modifikationen: (1) ein schichtenweise rekursives Blockpartitionierungsschema (1D-2D-3D), um sich dynamisch an verschiedene räumlich-zeitliche Aufmerksamkeitsmuster anzupassen und die Effizienz zu steigern; (2) globale Blockauswahl, um die wichtigsten Abfrage-Schlüssel-Block-Interaktionen über einen gesamten Aufmerksamkeitskopf hinweg zu priorisieren; und (3) schwellenwertbasierte Blockauswahl, um die Anzahl der beachteten Blöcke dynamisch basierend auf ihrer kumulativen Ähnlichkeit zu bestimmen. Umfangreiche Experimente zeigen, dass VMoBA das Training von VDMs auf längeren Sequenzen erheblich beschleunigt, mit einer 2,92-fachen FLOPs- und 1,48-fachen Latenzverbesserung, während es eine vergleichbare oder sogar überlegene Generierungsqualität gegenüber vollständiger Aufmerksamkeit erreicht. Darüber hinaus zeigt VMoBA eine wettbewerbsfähige Leistung bei trainingsfreier Inferenz und bietet eine 2,40-fache FLOPs- und 1,35-fache Latenzverbesserung für die Generierung hochauflösender Videos.

English

The quadratic complexity of full attention mechanisms poses a significant bottleneck for Video Diffusion Models (VDMs) aiming to generate long-duration, high-resolution videos. While various sparse attention methods have been proposed, many are designed as training-free inference accelerators or do not optimally capture the unique spatio-temporal characteristics inherent in video data when trained natively. This paper introduces Video Mixture of Block Attention (VMoBA), a novel sparse attention mechanism specifically adapted for VDMs. Motivated by an in-depth analysis of attention patterns within pre-trained video transformers, which revealed strong spatio-temporal locality, varying query importance, and head-specific concentration levels, VMoBA enhances the original MoBA framework with three key modifications: (1) a layer-wise recurrent block partition scheme (1D-2D-3D) to dynamically adapt to diverse spatio-temporal attention patterns and improve efficiency; (2) global block selection to prioritize the most salient query-key block interactions across an entire attention head; and (3) threshold-based block selection to dynamically determine the number of attended blocks based on their cumulative similarity. Extensive experiments demonstrate that VMoBA significantly accelerates the training of VDMs on longer sequences, achieving 2.92x FLOPs and 1.48x latency speedup, while attaining comparable or even superior generation quality to full attention. Furthermore, VMoBA exhibits competitive performance in training-free inference, offering 2.40x FLOPs and 1.35x latency speedup for high-res video generation.

VMoBA: Mixture-of-Block-Attention für Video-Diffusionsmodelle

VMoBA: Mixture-of-Block Attention for Video Diffusion Models

papers.abstract

Support