ChatPaper.aiChatPaper

MoGA: Atenção de Mistura de Grupos para Geração de Vídeos Longos de Ponta a Ponta

MoGA: Mixture-of-Groups Attention for End-to-End Long Video Generation

October 21, 2025
Autores: Weinan Jia, Yuning Lu, Mengqi Huang, Hualiang Wang, Binyuan Huang, Nan Chen, Mu Liu, Jidong Jiang, Zhendong Mao
cs.AI

Resumo

A geração de vídeos longos com Transformers de Difusão (DiTs) é limitada pela escala quadrática da atenção completa em relação ao comprimento da sequência. Como a atenção é altamente redundante, as saídas são dominadas por um pequeno subconjunto de pares query-key. Os métodos esparsos existentes dependem de estimativas grosseiras em blocos, cujos compromissos entre precisão e eficiência são restringidos pelo tamanho do bloco. Este artigo introduz a Atenção de Mistura de Grupos (MoGA), uma atenção esparsa eficiente que utiliza um roteador de tokens leve e aprendível para corresponder precisamente os tokens sem estimativas em blocos. Por meio de roteamento semântico, o MoGA permite interações eficazes de longo alcance. Como um método sem kernel, o MoGA integra-se perfeitamente com pilhas de atenção modernas, incluindo FlashAttention e paralelismo de sequência. Com base no MoGA, desenvolvemos um modelo eficiente de geração de vídeos longos que produz, de ponta a ponta, vídeos de nível minuto, com múltiplas cenas, em 480p a 24 fps, com um comprimento de contexto de aproximadamente 580k. Experimentos abrangentes em várias tarefas de geração de vídeos validam a eficácia da nossa abordagem.
English
Long video generation with Diffusion Transformers (DiTs) is bottlenecked by the quadratic scaling of full attention with sequence length. Since attention is highly redundant, outputs are dominated by a small subset of query-key pairs. Existing sparse methods rely on blockwise coarse estimation, whose accuracy-efficiency trade-offs are constrained by block size. This paper introduces Mixture-of-Groups Attention (MoGA), an efficient sparse attention that uses a lightweight, learnable token router to precisely match tokens without blockwise estimation. Through semantic-aware routing, MoGA enables effective long-range interactions. As a kernel-free method, MoGA integrates seamlessly with modern attention stacks, including FlashAttention and sequence parallelism. Building on MoGA, we develop an efficient long video generation model that end-to-end produces minute-level, multi-shot, 480p videos at 24 fps, with a context length of approximately 580k. Comprehensive experiments on various video generation tasks validate the effectiveness of our approach.
PDF366October 22, 2025