ChatPaper.aiChatPaper

MoGA: 종단간 장기 비디오 생성을 위한 그룹 혼합 어텐션

MoGA: Mixture-of-Groups Attention for End-to-End Long Video Generation

October 21, 2025
저자: Weinan Jia, Yuning Lu, Mengqi Huang, Hualiang Wang, Binyuan Huang, Nan Chen, Mu Liu, Jidong Jiang, Zhendong Mao
cs.AI

초록

긴 비디오 생성을 위한 Diffusion Transformers (DiTs)는 시퀀스 길이에 따른 전체 어텐션의 이차적 확장성에 의해 병목 현상이 발생합니다. 어텐션은 매우 중복적이기 때문에, 출력은 소수의 쿼리-키 쌍에 의해 지배됩니다. 기존의 희소(sparse) 방법들은 블록 단위의 대략적인 추정에 의존하며, 이는 블록 크기에 의해 정확도와 효율성 간의 균형이 제한됩니다. 본 논문은 Mixture-of-Groups Attention (MoGA)를 소개합니다. MoGA는 블록 단위 추정 없이도 토큰을 정확히 매칭하기 위해 가볍고 학습 가능한 토큰 라우터를 사용하는 효율적인 희소 어텐션입니다. 의미 인식 라우팅을 통해 MoGA는 효과적인 장거리 상호작용을 가능하게 합니다. 커널이 없는 방법으로서, MoGA는 FlashAttention 및 시퀀스 병렬화를 포함한 현대적인 어텐션 스택과 원활하게 통합됩니다. MoGA를 기반으로, 우리는 약 580k의 컨텍스트 길이로 분 단위의 멀티샷 480p 비디오를 24 fps로 종단간(end-to-end) 생성하는 효율적인 긴 비디오 생성 모델을 개발했습니다. 다양한 비디오 생성 작업에 대한 포괄적인 실험을 통해 우리의 접근 방식의 효과성을 검증했습니다.
English
Long video generation with Diffusion Transformers (DiTs) is bottlenecked by the quadratic scaling of full attention with sequence length. Since attention is highly redundant, outputs are dominated by a small subset of query-key pairs. Existing sparse methods rely on blockwise coarse estimation, whose accuracy-efficiency trade-offs are constrained by block size. This paper introduces Mixture-of-Groups Attention (MoGA), an efficient sparse attention that uses a lightweight, learnable token router to precisely match tokens without blockwise estimation. Through semantic-aware routing, MoGA enables effective long-range interactions. As a kernel-free method, MoGA integrates seamlessly with modern attention stacks, including FlashAttention and sequence parallelism. Building on MoGA, we develop an efficient long video generation model that end-to-end produces minute-level, multi-shot, 480p videos at 24 fps, with a context length of approximately 580k. Comprehensive experiments on various video generation tasks validate the effectiveness of our approach.
PDF366October 22, 2025