Sparse VideoGen2: Ускорение генерации видео с помощью разреженного внимания через семантически осознанную перестановку
Sparse VideoGen2: Accelerate Video Generation with Sparse Attention via Semantic-Aware Permutation
May 24, 2025
Авторы: Shuo Yang, Haocheng Xi, Yilong Zhao, Muyang Li, Jintao Zhang, Han Cai, Yujun Lin, Xiuyu Li, Chenfeng Xu, Kelly Peng, Jianfei Chen, Song Han, Kurt Keutzer, Ion Stoica
cs.AI
Аннотация
Трансформеры с диффузией (DiTs) играют ключевую роль в генерации видео, но страдают от значительных задержек из-за квадратичной сложности механизма внимания. Вычисление только критических токенов с использованием разреженного внимания снижает вычислительные затраты и предлагает перспективный подход к ускорению. Однако мы выявили, что существующие методы не достигают оптимального качества генерации при том же вычислительном бюджете по двум причинам: (1) Неточное определение критических токенов: текущие методы группируют токены на основе их позиции, а не семантики, что приводит к неточным агрегированным представлениям. (2) Избыточные вычислительные потери: критические токены распределены среди некритических, что приводит к бесполезным вычислениям на GPU, которые оптимизированы для обработки последовательных токенов. В данной работе мы предлагаем SVG2, фреймворк, не требующий обучения, который максимизирует точность идентификации и минимизирует вычислительные потери, достигая Парето-оптимального компромисса между качеством генерации и эффективностью. Основой SVG2 является семантически осознанная перестановка, которая группирует и переупорядочивает токены на основе семантического сходства с использованием k-средних. Этот подход обеспечивает как точное представление кластеров, повышая точность идентификации, так и уплотненное расположение критических токенов, позволяя эффективно выполнять вычисления без заполнения. Кроме того, SVG2 интегрирует динамический контроль бюджета top-p и специализированные реализации ядер, достигая ускорения до 2.30x и 1.89x при сохранении PSNR до 30 и 26 на наборах данных HunyuanVideo и Wan 2.1 соответственно.
English
Diffusion Transformers (DiTs) are essential for video generation but suffer
from significant latency due to the quadratic complexity of attention. By
computing only critical tokens, sparse attention reduces computational costs
and offers a promising acceleration approach. However, we identify that
existing methods fail to approach optimal generation quality under the same
computation budget for two reasons: (1) Inaccurate critical token
identification: current methods cluster tokens based on position rather than
semantics, leading to imprecise aggregated representations. (2) Excessive
computation waste: critical tokens are scattered among non-critical ones,
leading to wasted computation on GPUs, which are optimized for processing
contiguous tokens. In this paper, we propose SVG2, a training-free framework
that maximizes identification accuracy and minimizes computation waste,
achieving a Pareto frontier trade-off between generation quality and
efficiency. The core of SVG2 is semantic-aware permutation, which clusters and
reorders tokens based on semantic similarity using k-means. This approach
ensures both a precise cluster representation, improving identification
accuracy, and a densified layout of critical tokens, enabling efficient
computation without padding. Additionally, SVG2 integrates top-p dynamic budget
control and customized kernel implementations, achieving up to 2.30x and 1.89x
speedup while maintaining a PSNR of up to 30 and 26 on HunyuanVideo and Wan
2.1, respectively.