ChatPaper.aiChatPaper

Sparse VideoGen2: Aceleración de la generación de videos con atención dispersa mediante permutación semántica

Sparse VideoGen2: Accelerate Video Generation with Sparse Attention via Semantic-Aware Permutation

May 24, 2025
Autores: Shuo Yang, Haocheng Xi, Yilong Zhao, Muyang Li, Jintao Zhang, Han Cai, Yujun Lin, Xiuyu Li, Chenfeng Xu, Kelly Peng, Jianfei Chen, Song Han, Kurt Keutzer, Ion Stoica
cs.AI

Resumen

Los Transformadores de Difusión (DiTs) son esenciales para la generación de videos, pero sufren de una latencia significativa debido a la complejidad cuadrática de la atención. Al calcular únicamente los tokens críticos, la atención dispersa reduce los costos computacionales y ofrece un enfoque prometedor para la aceleración. Sin embargo, identificamos que los métodos existentes no logran alcanzar una calidad de generación óptima bajo el mismo presupuesto computacional por dos razones: (1) Identificación imprecisa de tokens críticos: los métodos actuales agrupan tokens basándose en la posición en lugar de la semántica, lo que lleva a representaciones agregadas imprecisas. (2) Desperdicio excesivo de computación: los tokens críticos están dispersos entre los no críticos, lo que resulta en un desperdicio de computación en las GPU, que están optimizadas para procesar tokens contiguos. En este artículo, proponemos SVG2, un marco sin necesidad de entrenamiento que maximiza la precisión de identificación y minimiza el desperdicio de computación, logrando un equilibrio de frontera de Pareto entre la calidad de generación y la eficiencia. El núcleo de SVG2 es la permutación semántica, que agrupa y reordena tokens basándose en la similitud semántica utilizando k-means. Este enfoque asegura tanto una representación precisa de los clusters, mejorando la precisión de identificación, como un diseño densificado de tokens críticos, permitiendo una computación eficiente sin relleno. Además, SVG2 integra un control dinámico de presupuesto top-p e implementaciones de kernel personalizadas, logrando aceleraciones de hasta 2.30x y 1.89x mientras mantiene un PSNR de hasta 30 y 26 en HunyuanVideo y Wan 2.1, respectivamente.
English
Diffusion Transformers (DiTs) are essential for video generation but suffer from significant latency due to the quadratic complexity of attention. By computing only critical tokens, sparse attention reduces computational costs and offers a promising acceleration approach. However, we identify that existing methods fail to approach optimal generation quality under the same computation budget for two reasons: (1) Inaccurate critical token identification: current methods cluster tokens based on position rather than semantics, leading to imprecise aggregated representations. (2) Excessive computation waste: critical tokens are scattered among non-critical ones, leading to wasted computation on GPUs, which are optimized for processing contiguous tokens. In this paper, we propose SVG2, a training-free framework that maximizes identification accuracy and minimizes computation waste, achieving a Pareto frontier trade-off between generation quality and efficiency. The core of SVG2 is semantic-aware permutation, which clusters and reorders tokens based on semantic similarity using k-means. This approach ensures both a precise cluster representation, improving identification accuracy, and a densified layout of critical tokens, enabling efficient computation without padding. Additionally, SVG2 integrates top-p dynamic budget control and customized kernel implementations, achieving up to 2.30x and 1.89x speedup while maintaining a PSNR of up to 30 and 26 on HunyuanVideo and Wan 2.1, respectively.

Summary

AI-Generated Summary

PDF382May 28, 2025