VMoBA: Mixture-of-Block-Attention für Video-Diffusionsmodelle
VMoBA: Mixture-of-Block Attention for Video Diffusion Models
June 30, 2025
Autoren: Jianzong Wu, Liang Hou, Haotian Yang, Xin Tao, Ye Tian, Pengfei Wan, Di Zhang, Yunhai Tong
cs.AI
Zusammenfassung
Die quadratische Komplexität von vollständigen Aufmerksamkeitsmechanismen stellt ein erhebliches Hindernis für Video-Diffusionsmodelle (VDMs) dar, die darauf abzielen, langandauernde, hochauflösende Videos zu generieren. Obwohl verschiedene spärliche Aufmerksamkeitsmethoden vorgeschlagen wurden, sind viele als trainingsfreie Inferenzbeschleuniger konzipiert oder erfassen die einzigartigen räumlich-zeitlichen Eigenschaften von Videodaten bei nativem Training nicht optimal. Dieses Papier stellt Video Mixture of Block Attention (VMoBA) vor, einen neuartigen spärlichen Aufmerksamkeitsmechanismus, der speziell für VDMs angepasst ist. Motiviert durch eine detaillierte Analyse von Aufmerksamkeitsmustern in vortrainierten Video-Transformatoren, die starke räumlich-zeitliche Lokalität, variierende Wichtigkeit von Abfragen und kopf-spezifische Konzentrationsniveale offenbarte, verbessert VMoBA das ursprüngliche MoBA-Framework mit drei wesentlichen Modifikationen: (1) ein schichtenweise rekursives Blockpartitionierungsschema (1D-2D-3D), um sich dynamisch an verschiedene räumlich-zeitliche Aufmerksamkeitsmuster anzupassen und die Effizienz zu steigern; (2) globale Blockauswahl, um die wichtigsten Abfrage-Schlüssel-Block-Interaktionen über einen gesamten Aufmerksamkeitskopf hinweg zu priorisieren; und (3) schwellenwertbasierte Blockauswahl, um die Anzahl der beachteten Blöcke dynamisch basierend auf ihrer kumulativen Ähnlichkeit zu bestimmen. Umfangreiche Experimente zeigen, dass VMoBA das Training von VDMs auf längeren Sequenzen erheblich beschleunigt, mit einer 2,92-fachen FLOPs- und 1,48-fachen Latenzverbesserung, während es eine vergleichbare oder sogar überlegene Generierungsqualität gegenüber vollständiger Aufmerksamkeit erreicht. Darüber hinaus zeigt VMoBA eine wettbewerbsfähige Leistung bei trainingsfreier Inferenz und bietet eine 2,40-fache FLOPs- und 1,35-fache Latenzverbesserung für die Generierung hochauflösender Videos.
English
The quadratic complexity of full attention mechanisms poses a significant
bottleneck for Video Diffusion Models (VDMs) aiming to generate long-duration,
high-resolution videos. While various sparse attention methods have been
proposed, many are designed as training-free inference accelerators or do not
optimally capture the unique spatio-temporal characteristics inherent in video
data when trained natively. This paper introduces Video Mixture of Block
Attention (VMoBA), a novel sparse attention mechanism specifically adapted for
VDMs. Motivated by an in-depth analysis of attention patterns within
pre-trained video transformers, which revealed strong spatio-temporal locality,
varying query importance, and head-specific concentration levels, VMoBA
enhances the original MoBA framework with three key modifications: (1) a
layer-wise recurrent block partition scheme (1D-2D-3D) to dynamically adapt to
diverse spatio-temporal attention patterns and improve efficiency; (2) global
block selection to prioritize the most salient query-key block interactions
across an entire attention head; and (3) threshold-based block selection to
dynamically determine the number of attended blocks based on their cumulative
similarity. Extensive experiments demonstrate that VMoBA significantly
accelerates the training of VDMs on longer sequences, achieving 2.92x FLOPs and
1.48x latency speedup, while attaining comparable or even superior generation
quality to full attention. Furthermore, VMoBA exhibits competitive performance
in training-free inference, offering 2.40x FLOPs and 1.35x latency speedup for
high-res video generation.