MoGA: Mixture-of-Groups Attention voor End-to-End Lange Videogeneratie
MoGA: Mixture-of-Groups Attention for End-to-End Long Video Generation
October 21, 2025
Auteurs: Weinan Jia, Yuning Lu, Mengqi Huang, Hualiang Wang, Binyuan Huang, Nan Chen, Mu Liu, Jidong Jiang, Zhendong Mao
cs.AI
Samenvatting
Het genereren van lange video's met Diffusion Transformers (DiTs) wordt beperkt door de kwadratische schaling van volledige aandacht (full attention) met de sequentielengte. Aangezien aandacht sterk redundant is, worden de uitvoeren gedomineerd door een kleine subset van query-key paren. Bestaande sparse methoden vertrouwen op bloksgewijze grove schattingen, waarvan de nauwkeurigheid-efficiëntie afwegingen beperkt worden door de blokgrootte. Dit artikel introduceert Mixture-of-Groups Attention (MoGA), een efficiënte sparse aandacht die een lichtgewicht, leerbare token router gebruikt om tokens precies te matchen zonder bloksgewijze schatting. Door semantisch bewuste routing maakt MoGA effectieve langeafstandsinteracties mogelijk. Als een kernel-vrije methode integreert MoGA naadloos met moderne aandachtstacks, waaronder FlashAttention en sequentieparallelisme. Op basis van MoGA ontwikkelen we een efficiënt model voor het genereren van lange video's dat end-to-end minutenlange, multi-shot, 480p video's produceert met 24 fps, met een contextlengte van ongeveer 580k. Uitgebreide experimenten op verschillende videogeneratietaken valideren de effectiviteit van onze aanpak.
English
Long video generation with Diffusion Transformers (DiTs) is bottlenecked by
the quadratic scaling of full attention with sequence length. Since attention
is highly redundant, outputs are dominated by a small subset of query-key
pairs. Existing sparse methods rely on blockwise coarse estimation, whose
accuracy-efficiency trade-offs are constrained by block size. This paper
introduces Mixture-of-Groups Attention (MoGA), an efficient sparse attention
that uses a lightweight, learnable token router to precisely match tokens
without blockwise estimation. Through semantic-aware routing, MoGA enables
effective long-range interactions. As a kernel-free method, MoGA integrates
seamlessly with modern attention stacks, including FlashAttention and sequence
parallelism. Building on MoGA, we develop an efficient long video generation
model that end-to-end produces minute-level, multi-shot, 480p videos at 24 fps,
with a context length of approximately 580k. Comprehensive experiments on
various video generation tasks validate the effectiveness of our approach.