ChatPaper.aiChatPaper

Sparse VideoGen2: Beschleunigung der Videogenerierung durch Sparse Attention mittels semantikbewusster Permutation

Sparse VideoGen2: Accelerate Video Generation with Sparse Attention via Semantic-Aware Permutation

May 24, 2025
Autoren: Shuo Yang, Haocheng Xi, Yilong Zhao, Muyang Li, Jintao Zhang, Han Cai, Yujun Lin, Xiuyu Li, Chenfeng Xu, Kelly Peng, Jianfei Chen, Song Han, Kurt Keutzer, Ion Stoica
cs.AI

Zusammenfassung

Diffusion Transformers (DiTs) sind entscheidend für die Videogenerierung, leiden jedoch unter erheblicher Latenz aufgrund der quadratischen Komplexität der Aufmerksamkeitsmechanismen. Durch die Berechnung nur kritischer Tokens reduziert die spärliche Aufmerksamkeit die Rechenkosten und bietet einen vielversprechenden Ansatz zur Beschleunigung. Wir stellen jedoch fest, dass bestehende Methoden unter demselben Rechenbudget nicht die optimale Generierungsqualität erreichen, und zwar aus zwei Gründen: (1) Ungenaue Identifikation kritischer Tokens: Aktuelle Methoden gruppieren Tokens basierend auf ihrer Position anstatt ihrer Semantik, was zu unpräzisen aggregierten Darstellungen führt. (2) Übermäßiger Rechenaufwand: Kritische Tokens sind zwischen nicht-kritischen Tokens verstreut, was zu verschwendeter Rechenleistung auf GPUs führt, die für die Verarbeitung zusammenhängender Tokens optimiert sind. In diesem Artikel stellen wir SVG2 vor, ein trainingsfreies Framework, das die Identifikationsgenauigkeit maximiert und den Rechenaufwand minimiert, wodurch ein Pareto-optimaler Kompromiss zwischen Generierungsqualität und Effizienz erreicht wird. Das Kernstück von SVG2 ist die semantikbewusste Permutation, die Tokens basierend auf semantischer Ähnlichkeit mittels k-Means gruppiert und neu anordnet. Dieser Ansatz gewährleistet sowohl eine präzise Clusterdarstellung, die die Identifikationsgenauigkeit verbessert, als auch eine verdichtete Anordnung kritischer Tokens, die eine effiziente Berechnung ohne Auffüllung ermöglicht. Zusätzlich integriert SVG2 eine dynamische Budgetkontrolle mittels top-p und maßgeschneiderte Kernel-Implementierungen, wodurch eine Beschleunigung um bis zu 2,30x und 1,89x bei gleichzeitiger Beibehaltung eines PSNR von bis zu 30 bzw. 26 auf HunyuanVideo und Wan 2.1 erreicht wird.
English
Diffusion Transformers (DiTs) are essential for video generation but suffer from significant latency due to the quadratic complexity of attention. By computing only critical tokens, sparse attention reduces computational costs and offers a promising acceleration approach. However, we identify that existing methods fail to approach optimal generation quality under the same computation budget for two reasons: (1) Inaccurate critical token identification: current methods cluster tokens based on position rather than semantics, leading to imprecise aggregated representations. (2) Excessive computation waste: critical tokens are scattered among non-critical ones, leading to wasted computation on GPUs, which are optimized for processing contiguous tokens. In this paper, we propose SVG2, a training-free framework that maximizes identification accuracy and minimizes computation waste, achieving a Pareto frontier trade-off between generation quality and efficiency. The core of SVG2 is semantic-aware permutation, which clusters and reorders tokens based on semantic similarity using k-means. This approach ensures both a precise cluster representation, improving identification accuracy, and a densified layout of critical tokens, enabling efficient computation without padding. Additionally, SVG2 integrates top-p dynamic budget control and customized kernel implementations, achieving up to 2.30x and 1.89x speedup while maintaining a PSNR of up to 30 and 26 on HunyuanVideo and Wan 2.1, respectively.

Summary

AI-Generated Summary

PDF382May 28, 2025