ChatPaper.aiChatPaper

MoGA: Atención de Mezcla de Grupos para la Generación de Videos Largos de Extremo a Extremo

MoGA: Mixture-of-Groups Attention for End-to-End Long Video Generation

October 21, 2025
Autores: Weinan Jia, Yuning Lu, Mengqi Huang, Hualiang Wang, Binyuan Huang, Nan Chen, Mu Liu, Jidong Jiang, Zhendong Mao
cs.AI

Resumen

La generación de videos largos con Transformadores de Difusión (DiTs) se ve limitada por el escalado cuadrático de la atención completa con respecto a la longitud de la secuencia. Dado que la atención es altamente redundante, las salidas están dominadas por un subconjunto pequeño de pares consulta-clave. Los métodos dispersos existentes dependen de estimaciones gruesas por bloques, cuyos compromisos entre precisión y eficiencia están restringidos por el tamaño del bloque. Este artículo introduce la Atención de Mezcla de Grupos (MoGA), una atención dispersa eficiente que utiliza un enrutador de tokens ligero y entrenable para emparejar tokens con precisión sin estimaciones por bloques. A través del enrutamiento semántico, MoGA permite interacciones efectivas a larga distancia. Como método libre de núcleos, MoGA se integra perfectamente con pilas de atención modernas, incluyendo FlashAttention y paralelismo de secuencias. Basándonos en MoGA, desarrollamos un modelo eficiente de generación de videos largos que produce, de extremo a extremo, videos de nivel minuto, multiescena, 480p a 24 fps, con una longitud de contexto de aproximadamente 580k. Experimentos exhaustivos en diversas tareas de generación de videos validan la efectividad de nuestro enfoque.
English
Long video generation with Diffusion Transformers (DiTs) is bottlenecked by the quadratic scaling of full attention with sequence length. Since attention is highly redundant, outputs are dominated by a small subset of query-key pairs. Existing sparse methods rely on blockwise coarse estimation, whose accuracy-efficiency trade-offs are constrained by block size. This paper introduces Mixture-of-Groups Attention (MoGA), an efficient sparse attention that uses a lightweight, learnable token router to precisely match tokens without blockwise estimation. Through semantic-aware routing, MoGA enables effective long-range interactions. As a kernel-free method, MoGA integrates seamlessly with modern attention stacks, including FlashAttention and sequence parallelism. Building on MoGA, we develop an efficient long video generation model that end-to-end produces minute-level, multi-shot, 480p videos at 24 fps, with a context length of approximately 580k. Comprehensive experiments on various video generation tasks validate the effectiveness of our approach.
PDF366October 22, 2025