ChatPaper.aiChatPaper

Sparse-vDiT: Раскрытие потенциала разреженного внимания для ускорения видео-диффузионных трансформеров

Sparse-vDiT: Unleashing the Power of Sparse Attention to Accelerate Video Diffusion Transformers

June 3, 2025
Авторы: Pengtao Chen, Xianfang Zeng, Maosen Zhao, Peng Ye, Mingzhu Shen, Wei Cheng, Gang Yu, Tao Chen
cs.AI

Аннотация

Хотя диффузионные трансформеры (DiTs) достигли прорывов в генерации видео, эта задача генерации длинных последовательностей остается ограниченной квадратичной сложностью механизмов внимания, что приводит к значительной задержке вывода. В результате детального анализа карт внимания в видео-диффузионном трансформере (vDiT) мы выявили три повторяющихся паттерна разреженности: диагональные, мультидиагональные и вертикально-полосатые структуры. При этом даже 3-6\% голов внимания могут быть пропущены. Важно отметить, что эти паттерны демонстрируют сильную корреляцию с глубиной слоя и позицией головы, но слабо зависят от входного содержимого. Используя эти наблюдения, мы предлагаем Sparse-vDiT — фреймворк для ускорения vDiT за счет разреженности, включающий: 1) Оптимизированные по паттернам разреженные ядра, которые заменяют плотное внимание на вычислительно эффективные реализации для каждого выявленного паттерна. 2) Оффлайн-алгоритм поиска разреженной диффузии, который выбирает оптимальную стратегию разреженных вычислений для каждого слоя и головы с учетом аппаратно-зависимого моделирования затрат. После определения оптимальной конфигурации мы объединяем головы в пределах одного слоя, которые используют одинаковую стратегию внимания, что повышает эффективность вывода. Интегрированный в современные модели vDiT (CogVideoX1.5, HunyuanVideo и Wan2.1), Sparse-vDiT достигает теоретического сокращения FLOP в 2.09, 2.38 и 1.67 раз, а фактического ускорения вывода в 1.76, 1.85 и 1.58 раз соответственно, при сохранении высокой визуальной точности с значениями PSNR, достигающими 24.13, 27.09 и 22.59. Наша работа демонстрирует, что скрытая структурная разреженность в vDiTs может быть систематически использована для синтеза длинных видео.
English
While Diffusion Transformers (DiTs) have achieved breakthroughs in video generation, this long sequence generation task remains constrained by the quadratic complexity of attention mechanisms, resulting in significant inference latency. Through detailed analysis of attention maps in Video Diffusion Transformer (vDiT), we identify three recurring sparsity patterns: diagonal, multi-diagonal, and vertical-stripe structures. And even 3-6\% attention heads can be skipped. Crucially, these patterns exhibit strong layer-depth and head-position correlations but show limited dependence on the input content. Leveraging these findings, we propose Sparse-vDiT, a sparsity acceleration framework for vDiT comprising: 1) Pattern-optimized sparse kernels that replace dense attention with computationally efficient implementations for each identified sparsity pattern. 2) An offline sparse diffusion search algorithm that selects the optimal sparse computation strategy per layer and head via hardware-aware cost modeling. After determining the optimal configuration, we fuse heads within the same layer that share the same attention strategy, enhancing inference efficiency. Integrated into state-of-the-art vDiT models (CogVideoX1.5, HunyuanVideo, and Wan2.1), Sparse-vDiT achieves 2.09times, 2.38times, and 1.67times theoretical FLOP reduction, and actual inference speedups of 1.76times, 1.85times, and 1.58times, respectively, while maintaining high visual fidelity, with PSNR values reaching 24.13, 27.09, and 22.59. Our work demonstrates that latent structural sparsity in vDiTs can be systematically exploited for long video synthesis.
PDF272June 4, 2025