ChatPaper.aiChatPaper

MoGA : Attention par Mélange de Groupes pour la Génération de Vidéos Longues de Bout en Bout

MoGA: Mixture-of-Groups Attention for End-to-End Long Video Generation

October 21, 2025
papers.authors: Weinan Jia, Yuning Lu, Mengqi Huang, Hualiang Wang, Binyuan Huang, Nan Chen, Mu Liu, Jidong Jiang, Zhendong Mao
cs.AI

papers.abstract

La génération de vidéos longues avec les Transformers à Diffusion (DiTs) est limitée par la croissance quadratique de l'attention complète en fonction de la longueur de la séquence. Étant donné que l'attention est hautement redondante, les sorties sont dominées par un petit sous-ensemble de paires requête-clé. Les méthodes parcimonieuses existantes reposent sur une estimation grossière par blocs, dont les compromis précision-efficacité sont contraints par la taille des blocs. Cet article introduit l'Attention par Mélange de Groupes (MoGA), une attention parcimonieuse efficace qui utilise un routeur de tokens léger et apprenable pour associer précisément les tokens sans estimation par blocs. Grâce à un routage sémantiquement conscient, MoGA permet des interactions efficaces à longue portée. En tant que méthode sans noyau, MoGA s'intègre parfaitement aux piles d'attention modernes, y compris FlashAttention et le parallélisme de séquences. En s'appuyant sur MoGA, nous développons un modèle efficace de génération de vidéos longues qui produit de manière end-to-end des vidéos de niveau minute, multi-plans, en 480p à 24 ips, avec une longueur de contexte d'environ 580k. Des expériences approfondies sur diverses tâches de génération vidéo valident l'efficacité de notre approche.
English
Long video generation with Diffusion Transformers (DiTs) is bottlenecked by the quadratic scaling of full attention with sequence length. Since attention is highly redundant, outputs are dominated by a small subset of query-key pairs. Existing sparse methods rely on blockwise coarse estimation, whose accuracy-efficiency trade-offs are constrained by block size. This paper introduces Mixture-of-Groups Attention (MoGA), an efficient sparse attention that uses a lightweight, learnable token router to precisely match tokens without blockwise estimation. Through semantic-aware routing, MoGA enables effective long-range interactions. As a kernel-free method, MoGA integrates seamlessly with modern attention stacks, including FlashAttention and sequence parallelism. Building on MoGA, we develop an efficient long video generation model that end-to-end produces minute-level, multi-shot, 480p videos at 24 fps, with a context length of approximately 580k. Comprehensive experiments on various video generation tasks validate the effectiveness of our approach.
PDF366October 22, 2025