MoGA: Смешанное внимание групп для сквозной генерации длинных видео
MoGA: Mixture-of-Groups Attention for End-to-End Long Video Generation
October 21, 2025
Авторы: Weinan Jia, Yuning Lu, Mengqi Huang, Hualiang Wang, Binyuan Huang, Nan Chen, Mu Liu, Jidong Jiang, Zhendong Mao
cs.AI
Аннотация
Генерация длинных видео с использованием Diffusion Transformers (DiTs) ограничена квадратичным масштабированием полного внимания (full attention) с увеличением длины последовательности. Поскольку механизм внимания обладает высокой избыточностью, выходные данные определяются небольшим подмножеством пар запрос-ключ. Существующие разреженные методы опираются на блочную грубую оценку, где компромисс между точностью и эффективностью ограничен размером блока. В данной статье представлено Mixture-of-Groups Attention (MoGA) — эффективный механизм разреженного внимания, который использует легковесный обучаемый маршрутизатор токенов для точного сопоставления токенов без блочной оценки. Благодаря семантически осознанной маршрутизации, MoGA обеспечивает эффективное взаимодействие на больших расстояниях. Будучи методом, не требующим ядра (kernel-free), MoGA легко интегрируется с современными стеками внимания, включая FlashAttention и параллелизм последовательностей. На основе MoGA мы разработали эффективную модель генерации длинных видео, которая сквозным образом создает минутные, многосценовые видео в разрешении 480p со скоростью 24 кадра в секунду и длиной контекста около 580 тысяч токенов. Комплексные эксперименты на различных задачах генерации видео подтверждают эффективность нашего подхода.
English
Long video generation with Diffusion Transformers (DiTs) is bottlenecked by
the quadratic scaling of full attention with sequence length. Since attention
is highly redundant, outputs are dominated by a small subset of query-key
pairs. Existing sparse methods rely on blockwise coarse estimation, whose
accuracy-efficiency trade-offs are constrained by block size. This paper
introduces Mixture-of-Groups Attention (MoGA), an efficient sparse attention
that uses a lightweight, learnable token router to precisely match tokens
without blockwise estimation. Through semantic-aware routing, MoGA enables
effective long-range interactions. As a kernel-free method, MoGA integrates
seamlessly with modern attention stacks, including FlashAttention and sequence
parallelism. Building on MoGA, we develop an efficient long video generation
model that end-to-end produces minute-level, multi-shot, 480p videos at 24 fps,
with a context length of approximately 580k. Comprehensive experiments on
various video generation tasks validate the effectiveness of our approach.