ChatPaper.aiChatPaper

Sparse-vDiT: Die Kraft der Sparse-Attention nutzen, um Video-Diffusion-Transformer zu beschleunigen

Sparse-vDiT: Unleashing the Power of Sparse Attention to Accelerate Video Diffusion Transformers

June 3, 2025
Autoren: Pengtao Chen, Xianfang Zeng, Maosen Zhao, Peng Ye, Mingzhu Shen, Wei Cheng, Gang Yu, Tao Chen
cs.AI

Zusammenfassung

Während Diffusion Transformer (DiTs) Durchbrüche in der Videogenerierung erzielt haben, bleibt diese Aufgabe der langen Sequenzgenerierung durch die quadratische Komplexität von Aufmerksamkeitsmechanismen eingeschränkt, was zu erheblicher Inferenzlatenz führt. Durch eine detaillierte Analyse der Aufmerksamkeitskarten in Video Diffusion Transformer (vDiT) identifizieren wir drei wiederkehrende Sparsamkeitsmuster: diagonale, multi-diagonale und vertikal-streifige Strukturen. Selbst 3-6\% der Aufmerksamkeitsköpfe können übersprungen werden. Entscheidend ist, dass diese Muster starke Korrelationen mit der Schichttiefe und der Kopfposition aufweisen, aber nur begrenzt vom Eingabeinhalt abhängen. Basierend auf diesen Erkenntnissen schlagen wir Sparse-vDiT vor, ein Sparsamkeitsbeschleunigungsframework für vDiT, das Folgendes umfasst: 1) Musteroptimierte spärliche Kernel, die die dichte Aufmerksamkeit durch recheneffiziente Implementierungen für jedes identifizierte Sparsamkeitsmuster ersetzen. 2) Ein offline spärlicher Diffusionssuchalgorithmus, der die optimale spärliche Berechnungsstrategie pro Schicht und Kopf über hardwarebewusste Kostenmodellierung auswählt. Nach der Bestimmung der optimalen Konfiguration fusionieren wir Köpfe innerhalb derselben Schicht, die dieselbe Aufmerksamkeitsstrategie teilen, um die Inferenzeffizienz zu steigern. In state-of-the-art vDiT-Modellen (CogVideoX1.5, HunyuanVideo und Wan2.1) integriert, erreicht Sparse-vDiT eine theoretische FLOP-Reduktion um das 2,09-fache, 2,38-fache und 1,67-fache sowie tatsächliche Inferenzbeschleunigungen um das 1,76-fache, 1,85-fache und 1,58-fache, während eine hohe visuelle Qualität mit PSNR-Werten von 24,13, 27,09 und 22,59 erhalten bleibt. Unsere Arbeit zeigt, dass latente strukturelle Sparsamkeit in vDiTs systematisch für die Synthese langer Videos genutzt werden kann.
English
While Diffusion Transformers (DiTs) have achieved breakthroughs in video generation, this long sequence generation task remains constrained by the quadratic complexity of attention mechanisms, resulting in significant inference latency. Through detailed analysis of attention maps in Video Diffusion Transformer (vDiT), we identify three recurring sparsity patterns: diagonal, multi-diagonal, and vertical-stripe structures. And even 3-6\% attention heads can be skipped. Crucially, these patterns exhibit strong layer-depth and head-position correlations but show limited dependence on the input content. Leveraging these findings, we propose Sparse-vDiT, a sparsity acceleration framework for vDiT comprising: 1) Pattern-optimized sparse kernels that replace dense attention with computationally efficient implementations for each identified sparsity pattern. 2) An offline sparse diffusion search algorithm that selects the optimal sparse computation strategy per layer and head via hardware-aware cost modeling. After determining the optimal configuration, we fuse heads within the same layer that share the same attention strategy, enhancing inference efficiency. Integrated into state-of-the-art vDiT models (CogVideoX1.5, HunyuanVideo, and Wan2.1), Sparse-vDiT achieves 2.09times, 2.38times, and 1.67times theoretical FLOP reduction, and actual inference speedups of 1.76times, 1.85times, and 1.58times, respectively, while maintaining high visual fidelity, with PSNR values reaching 24.13, 27.09, and 22.59. Our work demonstrates that latent structural sparsity in vDiTs can be systematically exploited for long video synthesis.
PDF272June 4, 2025