Sparse-vDiT: Sfruttare la Potenza dell'Attenzione Sparsa per Accelerare i Trasformatori di Diffusione Video
Sparse-vDiT: Unleashing the Power of Sparse Attention to Accelerate Video Diffusion Transformers
June 3, 2025
Autori: Pengtao Chen, Xianfang Zeng, Maosen Zhao, Peng Ye, Mingzhu Shen, Wei Cheng, Gang Yu, Tao Chen
cs.AI
Abstract
Mentre i Diffusion Transformers (DiTs) hanno ottenuto progressi significativi nella generazione di video, questo compito di generazione di sequenze lunghe rimane limitato dalla complessità quadratica dei meccanismi di attenzione, risultando in una latenza di inferenza considerevole. Attraverso un'analisi dettagliata delle mappe di attenzione nel Video Diffusion Transformer (vDiT), abbiamo identificato tre modelli ricorrenti di sparsità: strutture diagonali, multi-diagonali e a strisce verticali. Inoltre, è possibile saltare anche il 3-6% delle teste di attenzione. Crucialmente, questi modelli mostrano forti correlazioni con la profondità del livello e la posizione della testa, ma una dipendenza limitata dal contenuto dell'input. Sfruttando queste scoperte, proponiamo Sparse-vDiT, un framework di accelerazione basato sulla sparsità per vDiT che comprende: 1) Kernel sparsi ottimizzati per i modelli, che sostituiscono l'attenzione densa con implementazioni computazionalmente efficienti per ciascun modello di sparsità identificato. 2) Un algoritmo di ricerca sparsa offline che seleziona la strategia di calcolo sparsa ottimale per ogni livello e testa attraverso un modello di costo consapevole dell'hardware. Dopo aver determinato la configurazione ottimale, fondiamo le teste all'interno dello stesso livello che condividono la stessa strategia di attenzione, migliorando l'efficienza dell'inferenza. Integrato nei modelli vDiT all'avanguardia (CogVideoX1.5, HunyuanVideo e Wan2.1), Sparse-vDiT raggiunge una riduzione teorica dei FLOP di 2.09 volte, 2.38 volte e 1.67 volte, e accelerazioni effettive dell'inferenza di 1.76 volte, 1.85 volte e 1.58 volte, rispettivamente, mantenendo un'elevata fedeltà visiva, con valori PSNR che raggiungono 24.13, 27.09 e 22.59. Il nostro lavoro dimostra che la sparsità strutturale latente nei vDiT può essere sfruttata sistematicamente per la sintesi di video lunghi.
English
While Diffusion Transformers (DiTs) have achieved breakthroughs in video
generation, this long sequence generation task remains constrained by the
quadratic complexity of attention mechanisms, resulting in significant
inference latency. Through detailed analysis of attention maps in Video
Diffusion Transformer (vDiT), we identify three recurring sparsity patterns:
diagonal, multi-diagonal, and vertical-stripe structures. And even 3-6\%
attention heads can be skipped. Crucially, these patterns exhibit strong
layer-depth and head-position correlations but show limited dependence on the
input content. Leveraging these findings, we propose Sparse-vDiT, a sparsity
acceleration framework for vDiT comprising: 1) Pattern-optimized sparse kernels
that replace dense attention with computationally efficient implementations for
each identified sparsity pattern. 2) An offline sparse diffusion search
algorithm that selects the optimal sparse computation strategy per layer and
head via hardware-aware cost modeling. After determining the optimal
configuration, we fuse heads within the same layer that share the same
attention strategy, enhancing inference efficiency. Integrated into
state-of-the-art vDiT models (CogVideoX1.5, HunyuanVideo, and Wan2.1),
Sparse-vDiT achieves 2.09times, 2.38times, and 1.67times theoretical
FLOP reduction, and actual inference speedups of 1.76times, 1.85times,
and 1.58times, respectively, while maintaining high visual fidelity, with
PSNR values reaching 24.13, 27.09, and 22.59. Our work demonstrates that latent
structural sparsity in vDiTs can be systematically exploited for long video
synthesis.