MoGA: Mixture-of-Groups-Attention für End-to-End-Generierung langer Videos
MoGA: Mixture-of-Groups Attention for End-to-End Long Video Generation
October 21, 2025
papers.authors: Weinan Jia, Yuning Lu, Mengqi Huang, Hualiang Wang, Binyuan Huang, Nan Chen, Mu Liu, Jidong Jiang, Zhendong Mao
cs.AI
papers.abstract
Die Erzeugung langer Videos mit Diffusion Transformers (DiTs) wird durch die quadratische Skalierung der vollen Aufmerksamkeit mit der Sequenzlänge eingeschränkt. Da die Aufmerksamkeit stark redundant ist, werden die Ausgaben von einer kleinen Teilmenge von Query-Key-Paaren dominiert. Bestehende spärliche Methoden stützen sich auf blockweise grobe Schätzungen, deren Genauigkeit-Effizienz-Kompromisse durch die Blockgröße begrenzt sind. Dieses Papier stellt Mixture-of-Groups Attention (MoGA) vor, eine effiziente spärliche Aufmerksamkeit, die einen leichtgewichtigen, lernbaren Token-Router verwendet, um Token präzise ohne blockweise Schätzung abzugleichen. Durch semantisch bewusstes Routing ermöglicht MoGA effektive Langstreckeninteraktionen. Als kernelfreie Methode integriert sich MoGA nahtlos in moderne Aufmerksamkeitsstapel, einschließlich FlashAttention und Sequenzparallelismus. Aufbauend auf MoGA entwickeln wir ein effizientes Modell zur Erzeugung langer Videos, das end-to-end Minuten lange, mehrschüssige 480p-Videos mit 24 Bildern pro Sekunde erzeugt, mit einer Kontextlänge von etwa 580k. Umfassende Experimente zu verschiedenen Videoerzeugungsaufgaben validieren die Effektivität unseres Ansatzes.
English
Long video generation with Diffusion Transformers (DiTs) is bottlenecked by
the quadratic scaling of full attention with sequence length. Since attention
is highly redundant, outputs are dominated by a small subset of query-key
pairs. Existing sparse methods rely on blockwise coarse estimation, whose
accuracy-efficiency trade-offs are constrained by block size. This paper
introduces Mixture-of-Groups Attention (MoGA), an efficient sparse attention
that uses a lightweight, learnable token router to precisely match tokens
without blockwise estimation. Through semantic-aware routing, MoGA enables
effective long-range interactions. As a kernel-free method, MoGA integrates
seamlessly with modern attention stacks, including FlashAttention and sequence
parallelism. Building on MoGA, we develop an efficient long video generation
model that end-to-end produces minute-level, multi-shot, 480p videos at 24 fps,
with a context length of approximately 580k. Comprehensive experiments on
various video generation tasks validate the effectiveness of our approach.