VMoBA: Mixture-of-Block-Attentie voor Video Diffusiemodellen

Samenvatting

De kwadratische complexiteit van volledige aandachtmechanismen vormt een aanzienlijk knelpunt voor Video Diffusion Models (VDMs) die gericht zijn op het genereren van lange, hoogwaardige video's. Hoewel verschillende sparse aandachtmethoden zijn voorgesteld, zijn veel ervan ontworpen als trainingsvrije inferentieversnellers of vangen ze niet optimaal de unieke ruimtelijk-temporele kenmerken van videogegevens wanneer ze natieve training ondergaan. Dit artikel introduceert Video Mixture of Block Attention (VMoBA), een nieuw sparse aandachtmechanisme specifiek aangepast voor VDMs. Geïnspireerd door een diepgaande analyse van aandachtspatronen in vooraf getrainde videotransformers, die sterke ruimtelijk-temporele lokaliteit, variërende query-belangrijkheid en kop-specifieke concentratieniveaus aan het licht brachten, verbetert VMoBA het originele MoBA-raamwerk met drie belangrijke aanpassingen: (1) een laaggewijs recurrent blokpartitieschema (1D-2D-3D) om dynamisch aan te passen aan diverse ruimtelijk-temporele aandachtspatronen en de efficiëntie te verbeteren; (2) globale blokselectie om de meest opvallende query-key blokinteracties over een volledige aandachtkop te prioriteren; en (3) drempelgebaseerde blokselectie om dynamisch het aantal geattendeerde blokken te bepalen op basis van hun cumulatieve gelijkenis. Uitgebreide experimenten tonen aan dat VMoBA de training van VDMs op langere sequenties aanzienlijk versnelt, met een 2,92x FLOPs- en 1,48x latentieversnelling, terwijl het vergelijkbare of zelfs superieure generatiekwaliteit bereikt ten opzichte van volledige aandacht. Bovendien toont VMoBA competitieve prestaties in trainingsvrije inferentie, met een 2,40x FLOPs- en 1,35x latentieversnelling voor het genereren van hoogwaardige video's.

English

The quadratic complexity of full attention mechanisms poses a significant bottleneck for Video Diffusion Models (VDMs) aiming to generate long-duration, high-resolution videos. While various sparse attention methods have been proposed, many are designed as training-free inference accelerators or do not optimally capture the unique spatio-temporal characteristics inherent in video data when trained natively. This paper introduces Video Mixture of Block Attention (VMoBA), a novel sparse attention mechanism specifically adapted for VDMs. Motivated by an in-depth analysis of attention patterns within pre-trained video transformers, which revealed strong spatio-temporal locality, varying query importance, and head-specific concentration levels, VMoBA enhances the original MoBA framework with three key modifications: (1) a layer-wise recurrent block partition scheme (1D-2D-3D) to dynamically adapt to diverse spatio-temporal attention patterns and improve efficiency; (2) global block selection to prioritize the most salient query-key block interactions across an entire attention head; and (3) threshold-based block selection to dynamically determine the number of attended blocks based on their cumulative similarity. Extensive experiments demonstrate that VMoBA significantly accelerates the training of VDMs on longer sequences, achieving 2.92x FLOPs and 1.48x latency speedup, while attaining comparable or even superior generation quality to full attention. Furthermore, VMoBA exhibits competitive performance in training-free inference, offering 2.40x FLOPs and 1.35x latency speedup for high-res video generation.

VMoBA: Mixture-of-Block-Attentie voor Video Diffusiemodellen

VMoBA: Mixture-of-Block Attention for Video Diffusion Models

Samenvatting

Support