ChatPaper.aiChatPaper

MoGA: Attenzione a Miscela di Gruppi per la Generazione End-to-End di Video Lunghi

MoGA: Mixture-of-Groups Attention for End-to-End Long Video Generation

October 21, 2025
Autori: Weinan Jia, Yuning Lu, Mengqi Huang, Hualiang Wang, Binyuan Huang, Nan Chen, Mu Liu, Jidong Jiang, Zhendong Mao
cs.AI

Abstract

La generazione di video lunghi con Diffusion Transformers (DiTs) è limitata dalla scala quadratica dell'attenzione completa rispetto alla lunghezza della sequenza. Poiché l'attenzione è altamente ridondante, gli output sono dominati da un piccolo sottoinsieme di coppie query-chiave. I metodi sparsi esistenti si basano su stime approssimative a blocchi, i cui compromessi tra accuratezza ed efficienza sono vincolati dalla dimensione del blocco. Questo articolo introduce Mixture-of-Groups Attention (MoGA), un'attenzione sparsa efficiente che utilizza un router di token leggero e apprendibile per abbinare i token in modo preciso senza stime a blocchi. Attraverso un routing semantico, MoGA consente interazioni efficaci a lungo raggio. Essendo un metodo privo di kernel, MoGA si integra perfettamente con gli stack di attenzione moderni, inclusi FlashAttention e il parallelismo di sequenze. Basandoci su MoGA, sviluppiamo un modello efficiente per la generazione di video lunghi che produce end-to-end video multi-shot da 480p a 24 fps, con una durata di minuti e una lunghezza del contesto di circa 580k. Esperimenti completi su varie attività di generazione video convalidano l'efficacia del nostro approccio.
English
Long video generation with Diffusion Transformers (DiTs) is bottlenecked by the quadratic scaling of full attention with sequence length. Since attention is highly redundant, outputs are dominated by a small subset of query-key pairs. Existing sparse methods rely on blockwise coarse estimation, whose accuracy-efficiency trade-offs are constrained by block size. This paper introduces Mixture-of-Groups Attention (MoGA), an efficient sparse attention that uses a lightweight, learnable token router to precisely match tokens without blockwise estimation. Through semantic-aware routing, MoGA enables effective long-range interactions. As a kernel-free method, MoGA integrates seamlessly with modern attention stacks, including FlashAttention and sequence parallelism. Building on MoGA, we develop an efficient long video generation model that end-to-end produces minute-level, multi-shot, 480p videos at 24 fps, with a context length of approximately 580k. Comprehensive experiments on various video generation tasks validate the effectiveness of our approach.
PDF366October 22, 2025