Sparse VideoGen2 : Accélération de la génération vidéo grâce à l'attention parcimonieuse via une permutation sémantique
Sparse VideoGen2: Accelerate Video Generation with Sparse Attention via Semantic-Aware Permutation
May 24, 2025
Auteurs: Shuo Yang, Haocheng Xi, Yilong Zhao, Muyang Li, Jintao Zhang, Han Cai, Yujun Lin, Xiuyu Li, Chenfeng Xu, Kelly Peng, Jianfei Chen, Song Han, Kurt Keutzer, Ion Stoica
cs.AI
Résumé
Les Transformers de Diffusion (DiTs) sont essentiels pour la génération de vidéos, mais ils souffrent d'une latence importante due à la complexité quadratique de l'attention. En calculant uniquement les tokens critiques, l'attention parcimonieuse réduit les coûts de calcul et offre une approche prometteuse d'accélération. Cependant, nous constatons que les méthodes existantes ne parviennent pas à atteindre une qualité de génération optimale sous le même budget de calcul pour deux raisons : (1) Une identification imprécise des tokens critiques : les méthodes actuelles regroupent les tokens en fonction de leur position plutôt que de leur sémantique, ce qui conduit à des représentations agrégées imprécises. (2) Un gaspillage excessif de calcul : les tokens critiques sont dispersés parmi les tokens non critiques, ce qui entraîne un gaspillage de calcul sur les GPU, optimisés pour traiter des tokens contigus. Dans cet article, nous proposons SVG2, un framework sans entraînement qui maximise la précision d'identification et minimise le gaspillage de calcul, atteignant un compromis de frontière de Pareto entre qualité de génération et efficacité. Le cœur de SVG2 est la permutation sémantique, qui regroupe et réordonne les tokens en fonction de leur similarité sémantique en utilisant k-means. Cette approche garantit à la fois une représentation précise des clusters, améliorant la précision d'identification, et une disposition densifiée des tokens critiques, permettant un calcul efficace sans remplissage. De plus, SVG2 intègre un contrôle dynamique de budget top-p et des implémentations de noyaux personnalisées, atteignant des accélérations allant jusqu'à 2,30x et 1,89x tout en maintenant un PSNR allant jusqu'à 30 et 26 sur HunyuanVideo et Wan 2.1, respectivement.
English
Diffusion Transformers (DiTs) are essential for video generation but suffer
from significant latency due to the quadratic complexity of attention. By
computing only critical tokens, sparse attention reduces computational costs
and offers a promising acceleration approach. However, we identify that
existing methods fail to approach optimal generation quality under the same
computation budget for two reasons: (1) Inaccurate critical token
identification: current methods cluster tokens based on position rather than
semantics, leading to imprecise aggregated representations. (2) Excessive
computation waste: critical tokens are scattered among non-critical ones,
leading to wasted computation on GPUs, which are optimized for processing
contiguous tokens. In this paper, we propose SVG2, a training-free framework
that maximizes identification accuracy and minimizes computation waste,
achieving a Pareto frontier trade-off between generation quality and
efficiency. The core of SVG2 is semantic-aware permutation, which clusters and
reorders tokens based on semantic similarity using k-means. This approach
ensures both a precise cluster representation, improving identification
accuracy, and a densified layout of critical tokens, enabling efficient
computation without padding. Additionally, SVG2 integrates top-p dynamic budget
control and customized kernel implementations, achieving up to 2.30x and 1.89x
speedup while maintaining a PSNR of up to 30 and 26 on HunyuanVideo and Wan
2.1, respectively.Summary
AI-Generated Summary