Sparse-vDiT : Libérer la puissance de l'attention parcimonieuse pour accélérer les Transformers de Diffusion Vidéo
Sparse-vDiT: Unleashing the Power of Sparse Attention to Accelerate Video Diffusion Transformers
June 3, 2025
Auteurs: Pengtao Chen, Xianfang Zeng, Maosen Zhao, Peng Ye, Mingzhu Shen, Wei Cheng, Gang Yu, Tao Chen
cs.AI
Résumé
Alors que les Transformeurs de Diffusion (DiTs) ont réalisé des avancées majeures dans la génération vidéo, cette tâche de génération de longues séquences reste limitée par la complexité quadratique des mécanismes d'attention, entraînant une latence d'inférence significative. À travers une analyse détaillée des cartes d'attention dans le Transformeur de Diffusion Vidéo (vDiT), nous identifions trois motifs récurrents de sparsité : les structures diagonales, multi-diagonales et en bandes verticales. De plus, 3 à 6 % des têtes d'attention peuvent être ignorées. Ces motifs présentent des corrélations fortes avec la profondeur des couches et la position des têtes, mais montrent une dépendance limitée au contenu de l'entrée. En exploitant ces observations, nous proposons Sparse-vDiT, un cadre d'accélération par sparsité pour vDiT comprenant : 1) Des noyaux optimisés pour chaque motif de sparsité, remplaçant l'attention dense par des implémentations efficaces en termes de calcul. 2) Un algorithme de recherche de diffusion parcimonieuse hors ligne qui sélectionne la stratégie de calcul parcimonieux optimale par couche et par tête via une modélisation des coûts prenant en compte le matériel. Après avoir déterminé la configuration optimale, nous fusionnons les têtes d'une même couche partageant la même stratégie d'attention, améliorant ainsi l'efficacité de l'inférence. Intégré dans des modèles vDiT de pointe (CogVideoX1.5, HunyuanVideo et Wan2.1), Sparse-vDiT atteint des réductions théoriques de FLOP de 2,09×, 2,38× et 1,67×, et des accélérations réelles d'inférence de 1,76×, 1,85× et 1,58×, respectivement, tout en maintenant une haute fidélité visuelle, avec des valeurs PSNR atteignant 24,13, 27,09 et 22,59. Notre travail démontre que la sparsité structurelle latente dans les vDiTs peut être systématiquement exploitée pour la synthèse de vidéos longues.
English
While Diffusion Transformers (DiTs) have achieved breakthroughs in video
generation, this long sequence generation task remains constrained by the
quadratic complexity of attention mechanisms, resulting in significant
inference latency. Through detailed analysis of attention maps in Video
Diffusion Transformer (vDiT), we identify three recurring sparsity patterns:
diagonal, multi-diagonal, and vertical-stripe structures. And even 3-6\%
attention heads can be skipped. Crucially, these patterns exhibit strong
layer-depth and head-position correlations but show limited dependence on the
input content. Leveraging these findings, we propose Sparse-vDiT, a sparsity
acceleration framework for vDiT comprising: 1) Pattern-optimized sparse kernels
that replace dense attention with computationally efficient implementations for
each identified sparsity pattern. 2) An offline sparse diffusion search
algorithm that selects the optimal sparse computation strategy per layer and
head via hardware-aware cost modeling. After determining the optimal
configuration, we fuse heads within the same layer that share the same
attention strategy, enhancing inference efficiency. Integrated into
state-of-the-art vDiT models (CogVideoX1.5, HunyuanVideo, and Wan2.1),
Sparse-vDiT achieves 2.09times, 2.38times, and 1.67times theoretical
FLOP reduction, and actual inference speedups of 1.76times, 1.85times,
and 1.58times, respectively, while maintaining high visual fidelity, with
PSNR values reaching 24.13, 27.09, and 22.59. Our work demonstrates that latent
structural sparsity in vDiTs can be systematically exploited for long video
synthesis.