ChatPaper.aiChatPaper

MoGA: Mixture-of-Groups Attention voor End-to-End Lange Videogeneratie

MoGA: Mixture-of-Groups Attention for End-to-End Long Video Generation

October 21, 2025
Auteurs: Weinan Jia, Yuning Lu, Mengqi Huang, Hualiang Wang, Binyuan Huang, Nan Chen, Mu Liu, Jidong Jiang, Zhendong Mao
cs.AI

Samenvatting

Het genereren van lange video's met Diffusion Transformers (DiTs) wordt beperkt door de kwadratische schaling van volledige aandacht (full attention) met de sequentielengte. Aangezien aandacht sterk redundant is, worden de uitvoeren gedomineerd door een kleine subset van query-key paren. Bestaande sparse methoden vertrouwen op bloksgewijze grove schattingen, waarvan de nauwkeurigheid-efficiëntie afwegingen beperkt worden door de blokgrootte. Dit artikel introduceert Mixture-of-Groups Attention (MoGA), een efficiënte sparse aandacht die een lichtgewicht, leerbare token router gebruikt om tokens precies te matchen zonder bloksgewijze schatting. Door semantisch bewuste routing maakt MoGA effectieve langeafstandsinteracties mogelijk. Als een kernel-vrije methode integreert MoGA naadloos met moderne aandachtstacks, waaronder FlashAttention en sequentieparallelisme. Op basis van MoGA ontwikkelen we een efficiënt model voor het genereren van lange video's dat end-to-end minutenlange, multi-shot, 480p video's produceert met 24 fps, met een contextlengte van ongeveer 580k. Uitgebreide experimenten op verschillende videogeneratietaken valideren de effectiviteit van onze aanpak.
English
Long video generation with Diffusion Transformers (DiTs) is bottlenecked by the quadratic scaling of full attention with sequence length. Since attention is highly redundant, outputs are dominated by a small subset of query-key pairs. Existing sparse methods rely on blockwise coarse estimation, whose accuracy-efficiency trade-offs are constrained by block size. This paper introduces Mixture-of-Groups Attention (MoGA), an efficient sparse attention that uses a lightweight, learnable token router to precisely match tokens without blockwise estimation. Through semantic-aware routing, MoGA enables effective long-range interactions. As a kernel-free method, MoGA integrates seamlessly with modern attention stacks, including FlashAttention and sequence parallelism. Building on MoGA, we develop an efficient long video generation model that end-to-end produces minute-level, multi-shot, 480p videos at 24 fps, with a context length of approximately 580k. Comprehensive experiments on various video generation tasks validate the effectiveness of our approach.
PDF366October 22, 2025