ChatPaper.aiChatPaper

MoGA: エンドツーエンドの長尺動画生成のためのグループ混合アテンション

MoGA: Mixture-of-Groups Attention for End-to-End Long Video Generation

October 21, 2025
著者: Weinan Jia, Yuning Lu, Mengqi Huang, Hualiang Wang, Binyuan Huang, Nan Chen, Mu Liu, Jidong Jiang, Zhendong Mao
cs.AI

要旨

拡散トランスフォーマー(DiT)を用いた長時間動画生成は、シーケンス長に対するフルアテンションの二次スケーリングによってボトルネックとなっています。アテンションは高度に冗長であり、出力は少数のクエリ-キーペアによって支配されます。既存のスパース手法はブロック単位の粗い推定に依存しており、その精度と効率のトレードオフはブロックサイズによって制約されています。本論文では、Mixture-of-Groups Attention(MoGA)を提案します。これは、ブロック単位の推定を必要とせず、軽量で学習可能なトークンルーターを使用してトークンを正確にマッチングする効率的なスパースアテンションです。意味を考慮したルーティングにより、MoGAは効果的な長距離相互作用を可能にします。カーネルフリーの手法として、MoGAはFlashAttentionやシーケンス並列処理を含む現代のアテンションスタックとシームレスに統合されます。MoGAを基盤として、約580kのコンテキスト長で24fpsの480p、分単位のマルチショット動画をエンドツーエンドで生成する効率的な長時間動画生成モデルを開発しました。様々な動画生成タスクにおける包括的な実験により、本手法の有効性が検証されています。
English
Long video generation with Diffusion Transformers (DiTs) is bottlenecked by the quadratic scaling of full attention with sequence length. Since attention is highly redundant, outputs are dominated by a small subset of query-key pairs. Existing sparse methods rely on blockwise coarse estimation, whose accuracy-efficiency trade-offs are constrained by block size. This paper introduces Mixture-of-Groups Attention (MoGA), an efficient sparse attention that uses a lightweight, learnable token router to precisely match tokens without blockwise estimation. Through semantic-aware routing, MoGA enables effective long-range interactions. As a kernel-free method, MoGA integrates seamlessly with modern attention stacks, including FlashAttention and sequence parallelism. Building on MoGA, we develop an efficient long video generation model that end-to-end produces minute-level, multi-shot, 480p videos at 24 fps, with a context length of approximately 580k. Comprehensive experiments on various video generation tasks validate the effectiveness of our approach.
PDF366October 22, 2025