ChatPaper.aiChatPaper

VMoBA: Attenzione a Miscela di Blocchi per Modelli di Diffusione Video

VMoBA: Mixture-of-Block Attention for Video Diffusion Models

June 30, 2025
Autori: Jianzong Wu, Liang Hou, Haotian Yang, Xin Tao, Ye Tian, Pengfei Wan, Di Zhang, Yunhai Tong
cs.AI

Abstract

La complessità quadratica dei meccanismi di attenzione completa rappresenta un significativo collo di bottiglia per i Modelli di Diffusione Video (VDM) che mirano a generare video di lunga durata e ad alta risoluzione. Sebbene siano stati proposti vari metodi di attenzione sparsa, molti sono progettati come acceleratori di inferenza senza addestramento o non catturano in modo ottimale le caratteristiche spazio-temporali uniche intrinseche ai dati video quando addestrati nativamente. Questo articolo introduce Video Mixture of Block Attention (VMoBA), un nuovo meccanismo di attenzione sparsa specificamente adattato per i VDM. Motivato da un'analisi approfondita dei modelli di attenzione all'interno di trasformatori video pre-addestrati, che ha rivelato una forte località spazio-temporale, un'importanza variabile delle query e livelli di concentrazione specifici per ogni testa, VMoBA migliora il framework MoBA originale con tre modifiche chiave: (1) uno schema di partizione ricorrente a blocchi per livello (1D-2D-3D) per adattarsi dinamicamente a diversi modelli di attenzione spazio-temporale e migliorare l'efficienza; (2) selezione globale dei blocchi per dare priorità alle interazioni query-chiave più salienti in un'intera testa di attenzione; e (3) selezione dei blocchi basata su soglia per determinare dinamicamente il numero di blocchi a cui prestare attenzione in base alla loro somiglianza cumulativa. Esperimenti estesi dimostrano che VMoBA accelera significativamente l'addestramento dei VDM su sequenze più lunghe, raggiungendo un miglioramento di 2.92x nei FLOP e di 1.48x nella latenza, ottenendo al contempo una qualità di generazione comparabile o addirittura superiore rispetto all'attenzione completa. Inoltre, VMoBA mostra prestazioni competitive nell'inferenza senza addestramento, offrendo un miglioramento di 2.40x nei FLOP e di 1.35x nella latenza per la generazione di video ad alta risoluzione.
English
The quadratic complexity of full attention mechanisms poses a significant bottleneck for Video Diffusion Models (VDMs) aiming to generate long-duration, high-resolution videos. While various sparse attention methods have been proposed, many are designed as training-free inference accelerators or do not optimally capture the unique spatio-temporal characteristics inherent in video data when trained natively. This paper introduces Video Mixture of Block Attention (VMoBA), a novel sparse attention mechanism specifically adapted for VDMs. Motivated by an in-depth analysis of attention patterns within pre-trained video transformers, which revealed strong spatio-temporal locality, varying query importance, and head-specific concentration levels, VMoBA enhances the original MoBA framework with three key modifications: (1) a layer-wise recurrent block partition scheme (1D-2D-3D) to dynamically adapt to diverse spatio-temporal attention patterns and improve efficiency; (2) global block selection to prioritize the most salient query-key block interactions across an entire attention head; and (3) threshold-based block selection to dynamically determine the number of attended blocks based on their cumulative similarity. Extensive experiments demonstrate that VMoBA significantly accelerates the training of VDMs on longer sequences, achieving 2.92x FLOPs and 1.48x latency speedup, while attaining comparable or even superior generation quality to full attention. Furthermore, VMoBA exhibits competitive performance in training-free inference, offering 2.40x FLOPs and 1.35x latency speedup for high-res video generation.
PDF311July 1, 2025