Sparse-vDiT: Die Kraft der Sparse-Attention nutzen, um Video-Diffusion-Transformer zu beschleunigen
Sparse-vDiT: Unleashing the Power of Sparse Attention to Accelerate Video Diffusion Transformers
June 3, 2025
Autoren: Pengtao Chen, Xianfang Zeng, Maosen Zhao, Peng Ye, Mingzhu Shen, Wei Cheng, Gang Yu, Tao Chen
cs.AI
Zusammenfassung
Während Diffusion Transformer (DiTs) Durchbrüche in der Videogenerierung erzielt haben, bleibt diese Aufgabe der langen Sequenzgenerierung durch die quadratische Komplexität von Aufmerksamkeitsmechanismen eingeschränkt, was zu erheblicher Inferenzlatenz führt. Durch eine detaillierte Analyse der Aufmerksamkeitskarten in Video Diffusion Transformer (vDiT) identifizieren wir drei wiederkehrende Sparsamkeitsmuster: diagonale, multi-diagonale und vertikal-streifige Strukturen. Selbst 3-6\% der Aufmerksamkeitsköpfe können übersprungen werden. Entscheidend ist, dass diese Muster starke Korrelationen mit der Schichttiefe und der Kopfposition aufweisen, aber nur begrenzt vom Eingabeinhalt abhängen. Basierend auf diesen Erkenntnissen schlagen wir Sparse-vDiT vor, ein Sparsamkeitsbeschleunigungsframework für vDiT, das Folgendes umfasst: 1) Musteroptimierte spärliche Kernel, die die dichte Aufmerksamkeit durch recheneffiziente Implementierungen für jedes identifizierte Sparsamkeitsmuster ersetzen. 2) Ein offline spärlicher Diffusionssuchalgorithmus, der die optimale spärliche Berechnungsstrategie pro Schicht und Kopf über hardwarebewusste Kostenmodellierung auswählt. Nach der Bestimmung der optimalen Konfiguration fusionieren wir Köpfe innerhalb derselben Schicht, die dieselbe Aufmerksamkeitsstrategie teilen, um die Inferenzeffizienz zu steigern. In state-of-the-art vDiT-Modellen (CogVideoX1.5, HunyuanVideo und Wan2.1) integriert, erreicht Sparse-vDiT eine theoretische FLOP-Reduktion um das 2,09-fache, 2,38-fache und 1,67-fache sowie tatsächliche Inferenzbeschleunigungen um das 1,76-fache, 1,85-fache und 1,58-fache, während eine hohe visuelle Qualität mit PSNR-Werten von 24,13, 27,09 und 22,59 erhalten bleibt. Unsere Arbeit zeigt, dass latente strukturelle Sparsamkeit in vDiTs systematisch für die Synthese langer Videos genutzt werden kann.
English
While Diffusion Transformers (DiTs) have achieved breakthroughs in video
generation, this long sequence generation task remains constrained by the
quadratic complexity of attention mechanisms, resulting in significant
inference latency. Through detailed analysis of attention maps in Video
Diffusion Transformer (vDiT), we identify three recurring sparsity patterns:
diagonal, multi-diagonal, and vertical-stripe structures. And even 3-6\%
attention heads can be skipped. Crucially, these patterns exhibit strong
layer-depth and head-position correlations but show limited dependence on the
input content. Leveraging these findings, we propose Sparse-vDiT, a sparsity
acceleration framework for vDiT comprising: 1) Pattern-optimized sparse kernels
that replace dense attention with computationally efficient implementations for
each identified sparsity pattern. 2) An offline sparse diffusion search
algorithm that selects the optimal sparse computation strategy per layer and
head via hardware-aware cost modeling. After determining the optimal
configuration, we fuse heads within the same layer that share the same
attention strategy, enhancing inference efficiency. Integrated into
state-of-the-art vDiT models (CogVideoX1.5, HunyuanVideo, and Wan2.1),
Sparse-vDiT achieves 2.09times, 2.38times, and 1.67times theoretical
FLOP reduction, and actual inference speedups of 1.76times, 1.85times,
and 1.58times, respectively, while maintaining high visual fidelity, with
PSNR values reaching 24.13, 27.09, and 22.59. Our work demonstrates that latent
structural sparsity in vDiTs can be systematically exploited for long video
synthesis.