MoGA : Attention par Mélange de Groupes pour la Génération de Vidéos Longues de Bout en Bout
MoGA: Mixture-of-Groups Attention for End-to-End Long Video Generation
October 21, 2025
papers.authors: Weinan Jia, Yuning Lu, Mengqi Huang, Hualiang Wang, Binyuan Huang, Nan Chen, Mu Liu, Jidong Jiang, Zhendong Mao
cs.AI
papers.abstract
La génération de vidéos longues avec les Transformers à Diffusion (DiTs) est limitée par la croissance quadratique de l'attention complète en fonction de la longueur de la séquence. Étant donné que l'attention est hautement redondante, les sorties sont dominées par un petit sous-ensemble de paires requête-clé. Les méthodes parcimonieuses existantes reposent sur une estimation grossière par blocs, dont les compromis précision-efficacité sont contraints par la taille des blocs. Cet article introduit l'Attention par Mélange de Groupes (MoGA), une attention parcimonieuse efficace qui utilise un routeur de tokens léger et apprenable pour associer précisément les tokens sans estimation par blocs. Grâce à un routage sémantiquement conscient, MoGA permet des interactions efficaces à longue portée. En tant que méthode sans noyau, MoGA s'intègre parfaitement aux piles d'attention modernes, y compris FlashAttention et le parallélisme de séquences. En s'appuyant sur MoGA, nous développons un modèle efficace de génération de vidéos longues qui produit de manière end-to-end des vidéos de niveau minute, multi-plans, en 480p à 24 ips, avec une longueur de contexte d'environ 580k. Des expériences approfondies sur diverses tâches de génération vidéo valident l'efficacité de notre approche.
English
Long video generation with Diffusion Transformers (DiTs) is bottlenecked by
the quadratic scaling of full attention with sequence length. Since attention
is highly redundant, outputs are dominated by a small subset of query-key
pairs. Existing sparse methods rely on blockwise coarse estimation, whose
accuracy-efficiency trade-offs are constrained by block size. This paper
introduces Mixture-of-Groups Attention (MoGA), an efficient sparse attention
that uses a lightweight, learnable token router to precisely match tokens
without blockwise estimation. Through semantic-aware routing, MoGA enables
effective long-range interactions. As a kernel-free method, MoGA integrates
seamlessly with modern attention stacks, including FlashAttention and sequence
parallelism. Building on MoGA, we develop an efficient long video generation
model that end-to-end produces minute-level, multi-shot, 480p videos at 24 fps,
with a context length of approximately 580k. Comprehensive experiments on
various video generation tasks validate the effectiveness of our approach.