Sparse VideoGen2: Versnel videogeneratie met sparse aandacht via semantisch bewuste permutatie
Sparse VideoGen2: Accelerate Video Generation with Sparse Attention via Semantic-Aware Permutation
May 24, 2025
Auteurs: Shuo Yang, Haocheng Xi, Yilong Zhao, Muyang Li, Jintao Zhang, Han Cai, Yujun Lin, Xiuyu Li, Chenfeng Xu, Kelly Peng, Jianfei Chen, Song Han, Kurt Keutzer, Ion Stoica
cs.AI
Samenvatting
Diffusion Transformers (DiTs) zijn essentieel voor videogeneratie, maar lijden aan aanzienlijke latentie vanwege de kwadratische complexiteit van aandacht. Door alleen kritieke tokens te berekenen, vermindert sparse attention de rekenkosten en biedt het een veelbelovende versnellingsaanpak. Wij constateren echter dat bestaande methoden niet de optimale generatiekwaliteit bereiken binnen hetzelfde rekenbudget om twee redenen: (1) Onnauwkeurige identificatie van kritieke tokens: huidige methoden clusteren tokens op basis van positie in plaats van semantiek, wat leidt tot onnauwkeurige geaggregeerde representaties. (2) Overmatige rekenverspilling: kritieke tokens zijn verspreid tussen niet-kritieke tokens, wat leidt tot verspilling van rekenkracht op GPU's, die zijn geoptimaliseerd voor het verwerken van aaneengesloten tokens. In dit artikel stellen we SVG2 voor, een trainingsvrij raamwerk dat de identificatienauwkeurigheid maximaliseert en rekenverspilling minimaliseert, waardoor een Pareto-frontier trade-off tussen generatiekwaliteit en efficiëntie wordt bereikt. De kern van SVG2 is semantisch bewuste permutatie, die tokens clustert en herordent op basis van semantische gelijkenis met behulp van k-means. Deze aanpak zorgt zowel voor een nauwkeurige clusterrepresentatie, wat de identificatienauwkeurigheid verbetert, als voor een verdichte lay-out van kritieke tokens, waardoor efficiënte berekening zonder padding mogelijk wordt. Bovendien integreert SVG2 top-p dynamisch budgetbeheer en aangepaste kernelimplementaties, wat een versnelling tot 2.30x en 1.89x oplevert terwijl een PSNR van respectievelijk 30 en 26 wordt gehandhaafd op HunyuanVideo en Wan 2.1.
English
Diffusion Transformers (DiTs) are essential for video generation but suffer
from significant latency due to the quadratic complexity of attention. By
computing only critical tokens, sparse attention reduces computational costs
and offers a promising acceleration approach. However, we identify that
existing methods fail to approach optimal generation quality under the same
computation budget for two reasons: (1) Inaccurate critical token
identification: current methods cluster tokens based on position rather than
semantics, leading to imprecise aggregated representations. (2) Excessive
computation waste: critical tokens are scattered among non-critical ones,
leading to wasted computation on GPUs, which are optimized for processing
contiguous tokens. In this paper, we propose SVG2, a training-free framework
that maximizes identification accuracy and minimizes computation waste,
achieving a Pareto frontier trade-off between generation quality and
efficiency. The core of SVG2 is semantic-aware permutation, which clusters and
reorders tokens based on semantic similarity using k-means. This approach
ensures both a precise cluster representation, improving identification
accuracy, and a densified layout of critical tokens, enabling efficient
computation without padding. Additionally, SVG2 integrates top-p dynamic budget
control and customized kernel implementations, achieving up to 2.30x and 1.89x
speedup while maintaining a PSNR of up to 30 and 26 on HunyuanVideo and Wan
2.1, respectively.