MoGA: Atención de Mezcla de Grupos para la Generación de Videos Largos de Extremo a Extremo
MoGA: Mixture-of-Groups Attention for End-to-End Long Video Generation
October 21, 2025
Autores: Weinan Jia, Yuning Lu, Mengqi Huang, Hualiang Wang, Binyuan Huang, Nan Chen, Mu Liu, Jidong Jiang, Zhendong Mao
cs.AI
Resumen
La generación de videos largos con Transformadores de Difusión (DiTs) se ve limitada por el escalado cuadrático de la atención completa con respecto a la longitud de la secuencia. Dado que la atención es altamente redundante, las salidas están dominadas por un subconjunto pequeño de pares consulta-clave. Los métodos dispersos existentes dependen de estimaciones gruesas por bloques, cuyos compromisos entre precisión y eficiencia están restringidos por el tamaño del bloque. Este artículo introduce la Atención de Mezcla de Grupos (MoGA), una atención dispersa eficiente que utiliza un enrutador de tokens ligero y entrenable para emparejar tokens con precisión sin estimaciones por bloques. A través del enrutamiento semántico, MoGA permite interacciones efectivas a larga distancia. Como método libre de núcleos, MoGA se integra perfectamente con pilas de atención modernas, incluyendo FlashAttention y paralelismo de secuencias. Basándonos en MoGA, desarrollamos un modelo eficiente de generación de videos largos que produce, de extremo a extremo, videos de nivel minuto, multiescena, 480p a 24 fps, con una longitud de contexto de aproximadamente 580k. Experimentos exhaustivos en diversas tareas de generación de videos validan la efectividad de nuestro enfoque.
English
Long video generation with Diffusion Transformers (DiTs) is bottlenecked by
the quadratic scaling of full attention with sequence length. Since attention
is highly redundant, outputs are dominated by a small subset of query-key
pairs. Existing sparse methods rely on blockwise coarse estimation, whose
accuracy-efficiency trade-offs are constrained by block size. This paper
introduces Mixture-of-Groups Attention (MoGA), an efficient sparse attention
that uses a lightweight, learnable token router to precisely match tokens
without blockwise estimation. Through semantic-aware routing, MoGA enables
effective long-range interactions. As a kernel-free method, MoGA integrates
seamlessly with modern attention stacks, including FlashAttention and sequence
parallelism. Building on MoGA, we develop an efficient long video generation
model that end-to-end produces minute-level, multi-shot, 480p videos at 24 fps,
with a context length of approximately 580k. Comprehensive experiments on
various video generation tasks validate the effectiveness of our approach.