ChatPaper.aiChatPaper

Sparse VideoGen2: Acelerando a Geração de Vídeos com Atenção Esparsa via Permutação Semântica

Sparse VideoGen2: Accelerate Video Generation with Sparse Attention via Semantic-Aware Permutation

May 24, 2025
Autores: Shuo Yang, Haocheng Xi, Yilong Zhao, Muyang Li, Jintao Zhang, Han Cai, Yujun Lin, Xiuyu Li, Chenfeng Xu, Kelly Peng, Jianfei Chen, Song Han, Kurt Keutzer, Ion Stoica
cs.AI

Resumo

Transformadores de Difusão (DiTs) são essenciais para a geração de vídeos, mas sofrem com uma latência significativa devido à complexidade quadrática do mecanismo de atenção. Ao calcular apenas os tokens críticos, a atenção esparsa reduz os custos computacionais e oferece uma abordagem promissora para aceleração. No entanto, identificamos que os métodos existentes falham em alcançar a qualidade ótima de geração sob o mesmo orçamento computacional por duas razões: (1) Identificação imprecisa de tokens críticos: os métodos atuais agrupam tokens com base na posição em vez da semântica, levando a representações agregadas imprecisas. (2) Desperdício excessivo de computação: os tokens críticos estão dispersos entre os não críticos, resultando em computação desperdiçada em GPUs, que são otimizadas para processar tokens contíguos. Neste artigo, propomos o SVG2, uma estrutura livre de treinamento que maximiza a precisão de identificação e minimiza o desperdício de computação, alcançando uma fronteira de Pareto entre qualidade de geração e eficiência. O núcleo do SVG2 é a permutação semântica, que agrupa e reordena tokens com base na similaridade semântica usando k-means. Essa abordagem garante tanto uma representação precisa do cluster, melhorando a precisão de identificação, quanto um layout densificado de tokens críticos, permitindo computação eficiente sem preenchimento. Além disso, o SVG2 integra controle dinâmico de orçamento top-p e implementações de kernel personalizadas, alcançando acelerações de até 2,30x e 1,89x enquanto mantém um PSNR de até 30 e 26 em HunyuanVideo e Wan 2.1, respectivamente.
English
Diffusion Transformers (DiTs) are essential for video generation but suffer from significant latency due to the quadratic complexity of attention. By computing only critical tokens, sparse attention reduces computational costs and offers a promising acceleration approach. However, we identify that existing methods fail to approach optimal generation quality under the same computation budget for two reasons: (1) Inaccurate critical token identification: current methods cluster tokens based on position rather than semantics, leading to imprecise aggregated representations. (2) Excessive computation waste: critical tokens are scattered among non-critical ones, leading to wasted computation on GPUs, which are optimized for processing contiguous tokens. In this paper, we propose SVG2, a training-free framework that maximizes identification accuracy and minimizes computation waste, achieving a Pareto frontier trade-off between generation quality and efficiency. The core of SVG2 is semantic-aware permutation, which clusters and reorders tokens based on semantic similarity using k-means. This approach ensures both a precise cluster representation, improving identification accuracy, and a densified layout of critical tokens, enabling efficient computation without padding. Additionally, SVG2 integrates top-p dynamic budget control and customized kernel implementations, achieving up to 2.30x and 1.89x speedup while maintaining a PSNR of up to 30 and 26 on HunyuanVideo and Wan 2.1, respectively.
PDF422December 4, 2025