ChatPaper.aiChatPaper

Sparse VideoGen2: Accelerare la Generazione di Video con Attenzione Sparsa tramite Permutazione Semantica-Consapevole

Sparse VideoGen2: Accelerate Video Generation with Sparse Attention via Semantic-Aware Permutation

May 24, 2025
Autori: Shuo Yang, Haocheng Xi, Yilong Zhao, Muyang Li, Jintao Zhang, Han Cai, Yujun Lin, Xiuyu Li, Chenfeng Xu, Kelly Peng, Jianfei Chen, Song Han, Kurt Keutzer, Ion Stoica
cs.AI

Abstract

I Diffusion Transformer (DiT) sono essenziali per la generazione di video, ma soffrono di una latenza significativa a causa della complessità quadratica dell'attenzione. Calcolando solo i token critici, l'attenzione sparsa riduce i costi computazionali e offre un approccio promettente per l'accelerazione. Tuttavia, abbiamo identificato che i metodi esistenti non riescono a raggiungere una qualità di generazione ottimale con lo stesso budget computazionale per due motivi: (1) Identificazione imprecisa dei token critici: i metodi attuali raggruppano i token in base alla posizione piuttosto che alla semantica, portando a rappresentazioni aggregate imprecise. (2) Eccessivo spreco computazionale: i token critici sono dispersi tra quelli non critici, causando uno spreco di calcolo sulle GPU, che sono ottimizzate per elaborare token contigui. In questo articolo, proponiamo SVG2, un framework senza addestramento che massimizza l'accuratezza dell'identificazione e minimizza lo spreco computazionale, raggiungendo un compromesso ottimale tra qualità di generazione ed efficienza. Il cuore di SVG2 è la permutazione semantica, che raggruppa e riordina i token in base alla similarità semantica utilizzando k-means. Questo approccio garantisce sia una rappresentazione precisa dei cluster, migliorando l'accuratezza dell'identificazione, sia un layout densificato dei token critici, consentendo un calcolo efficiente senza padding. Inoltre, SVG2 integra un controllo dinamico del budget top-p e implementazioni kernel personalizzate, raggiungendo un'accelerazione fino a 2,30x e 1,89x mantenendo un PSNR fino a 30 e 26 rispettivamente su HunyuanVideo e Wan 2.1.
English
Diffusion Transformers (DiTs) are essential for video generation but suffer from significant latency due to the quadratic complexity of attention. By computing only critical tokens, sparse attention reduces computational costs and offers a promising acceleration approach. However, we identify that existing methods fail to approach optimal generation quality under the same computation budget for two reasons: (1) Inaccurate critical token identification: current methods cluster tokens based on position rather than semantics, leading to imprecise aggregated representations. (2) Excessive computation waste: critical tokens are scattered among non-critical ones, leading to wasted computation on GPUs, which are optimized for processing contiguous tokens. In this paper, we propose SVG2, a training-free framework that maximizes identification accuracy and minimizes computation waste, achieving a Pareto frontier trade-off between generation quality and efficiency. The core of SVG2 is semantic-aware permutation, which clusters and reorders tokens based on semantic similarity using k-means. This approach ensures both a precise cluster representation, improving identification accuracy, and a densified layout of critical tokens, enabling efficient computation without padding. Additionally, SVG2 integrates top-p dynamic budget control and customized kernel implementations, achieving up to 2.30x and 1.89x speedup while maintaining a PSNR of up to 30 and 26 on HunyuanVideo and Wan 2.1, respectively.
PDF422May 28, 2025