VMoBA: Mixture-of-Block-Attentie voor Video Diffusiemodellen
VMoBA: Mixture-of-Block Attention for Video Diffusion Models
June 30, 2025
Auteurs: Jianzong Wu, Liang Hou, Haotian Yang, Xin Tao, Ye Tian, Pengfei Wan, Di Zhang, Yunhai Tong
cs.AI
Samenvatting
De kwadratische complexiteit van volledige aandachtmechanismen vormt een aanzienlijk knelpunt voor Video Diffusion Models (VDMs) die gericht zijn op het genereren van lange, hoogwaardige video's. Hoewel verschillende sparse aandachtmethoden zijn voorgesteld, zijn veel ervan ontworpen als trainingsvrije inferentieversnellers of vangen ze niet optimaal de unieke ruimtelijk-temporele kenmerken van videogegevens wanneer ze natieve training ondergaan. Dit artikel introduceert Video Mixture of Block Attention (VMoBA), een nieuw sparse aandachtmechanisme specifiek aangepast voor VDMs. Geïnspireerd door een diepgaande analyse van aandachtspatronen in vooraf getrainde videotransformers, die sterke ruimtelijk-temporele lokaliteit, variërende query-belangrijkheid en kop-specifieke concentratieniveaus aan het licht brachten, verbetert VMoBA het originele MoBA-raamwerk met drie belangrijke aanpassingen: (1) een laaggewijs recurrent blokpartitieschema (1D-2D-3D) om dynamisch aan te passen aan diverse ruimtelijk-temporele aandachtspatronen en de efficiëntie te verbeteren; (2) globale blokselectie om de meest opvallende query-key blokinteracties over een volledige aandachtkop te prioriteren; en (3) drempelgebaseerde blokselectie om dynamisch het aantal geattendeerde blokken te bepalen op basis van hun cumulatieve gelijkenis. Uitgebreide experimenten tonen aan dat VMoBA de training van VDMs op langere sequenties aanzienlijk versnelt, met een 2,92x FLOPs- en 1,48x latentieversnelling, terwijl het vergelijkbare of zelfs superieure generatiekwaliteit bereikt ten opzichte van volledige aandacht. Bovendien toont VMoBA competitieve prestaties in trainingsvrije inferentie, met een 2,40x FLOPs- en 1,35x latentieversnelling voor het genereren van hoogwaardige video's.
English
The quadratic complexity of full attention mechanisms poses a significant
bottleneck for Video Diffusion Models (VDMs) aiming to generate long-duration,
high-resolution videos. While various sparse attention methods have been
proposed, many are designed as training-free inference accelerators or do not
optimally capture the unique spatio-temporal characteristics inherent in video
data when trained natively. This paper introduces Video Mixture of Block
Attention (VMoBA), a novel sparse attention mechanism specifically adapted for
VDMs. Motivated by an in-depth analysis of attention patterns within
pre-trained video transformers, which revealed strong spatio-temporal locality,
varying query importance, and head-specific concentration levels, VMoBA
enhances the original MoBA framework with three key modifications: (1) a
layer-wise recurrent block partition scheme (1D-2D-3D) to dynamically adapt to
diverse spatio-temporal attention patterns and improve efficiency; (2) global
block selection to prioritize the most salient query-key block interactions
across an entire attention head; and (3) threshold-based block selection to
dynamically determine the number of attended blocks based on their cumulative
similarity. Extensive experiments demonstrate that VMoBA significantly
accelerates the training of VDMs on longer sequences, achieving 2.92x FLOPs and
1.48x latency speedup, while attaining comparable or even superior generation
quality to full attention. Furthermore, VMoBA exhibits competitive performance
in training-free inference, offering 2.40x FLOPs and 1.35x latency speedup for
high-res video generation.