ChatPaper.aiChatPaper

VMoBA: 비디오 확산 모델을 위한 블록 혼합 어텐션

VMoBA: Mixture-of-Block Attention for Video Diffusion Models

June 30, 2025
저자: Jianzong Wu, Liang Hou, Haotian Yang, Xin Tao, Ye Tian, Pengfei Wan, Di Zhang, Yunhai Tong
cs.AI

초록

전체 어텐션 메커니즘의 이차 복잡도는 장기간 고해상도 비디오를 생성하려는 비디오 확산 모델(VDM)에 있어 상당한 병목 현상을 야기합니다. 다양한 희소 어텐션 방법들이 제안되었지만, 많은 방법들이 학습 없이 추론 속도를 높이는 데 초점을 맞추거나, 비디오 데이터에 내재된 고유한 시공간적 특성을 최적으로 포착하지 못하는 경우가 많습니다. 본 논문에서는 VDM에 특화된 새로운 희소 어텐션 메커니즘인 Video Mixture of Block Attention (VMoBA)을 소개합니다. 사전 학습된 비디오 트랜스포머 내의 어텐션 패턴을 심층 분석한 결과, 강한 시공간적 지역성, 다양한 쿼리 중요도, 그리고 헤드별 집중 수준이 발견되었으며, 이를 바탕으로 VMoBA는 원래의 MoBA 프레임워크를 세 가지 주요 수정 사항으로 개선했습니다: (1) 다양한 시공간적 어텐션 패턴에 동적으로 적응하고 효율성을 높이기 위한 계층별 순환 블록 분할 방식(1D-2D-3D); (2) 전체 어텐션 헤드에서 가장 중요한 쿼리-키 블록 상호작용을 우선시하는 글로벌 블록 선택; (3) 누적 유사도를 기반으로 참여할 블록의 수를 동적으로 결정하는 임계값 기반 블록 선택. 광범위한 실험을 통해 VMoBA가 더 긴 시퀀스에서 VDM의 학습 속도를 크게 가속화하며, 2.92배의 FLOPs와 1.48배의 지연 시간 감소를 달성하면서도 전체 어텐션과 비슷하거나 더 나은 생성 품질을 얻음을 입증했습니다. 또한, VMoBA는 학습 없이 추론에서도 경쟁력 있는 성능을 보이며, 고해상도 비디오 생성에서 2.40배의 FLOPs와 1.35배의 지연 시간 감소를 제공합니다.
English
The quadratic complexity of full attention mechanisms poses a significant bottleneck for Video Diffusion Models (VDMs) aiming to generate long-duration, high-resolution videos. While various sparse attention methods have been proposed, many are designed as training-free inference accelerators or do not optimally capture the unique spatio-temporal characteristics inherent in video data when trained natively. This paper introduces Video Mixture of Block Attention (VMoBA), a novel sparse attention mechanism specifically adapted for VDMs. Motivated by an in-depth analysis of attention patterns within pre-trained video transformers, which revealed strong spatio-temporal locality, varying query importance, and head-specific concentration levels, VMoBA enhances the original MoBA framework with three key modifications: (1) a layer-wise recurrent block partition scheme (1D-2D-3D) to dynamically adapt to diverse spatio-temporal attention patterns and improve efficiency; (2) global block selection to prioritize the most salient query-key block interactions across an entire attention head; and (3) threshold-based block selection to dynamically determine the number of attended blocks based on their cumulative similarity. Extensive experiments demonstrate that VMoBA significantly accelerates the training of VDMs on longer sequences, achieving 2.92x FLOPs and 1.48x latency speedup, while attaining comparable or even superior generation quality to full attention. Furthermore, VMoBA exhibits competitive performance in training-free inference, offering 2.40x FLOPs and 1.35x latency speedup for high-res video generation.
PDF311July 1, 2025