Sparse-vDiT: Liberando o Poder da Atenção Esparsa para Acelerar Transformers de Difusão de Vídeo
Sparse-vDiT: Unleashing the Power of Sparse Attention to Accelerate Video Diffusion Transformers
June 3, 2025
Autores: Pengtao Chen, Xianfang Zeng, Maosen Zhao, Peng Ye, Mingzhu Shen, Wei Cheng, Gang Yu, Tao Chen
cs.AI
Resumo
Embora os Transformers de Difusão (DiTs) tenham alcançado avanços na geração de vídeos, essa tarefa de geração de sequências longas continua limitada pela complexidade quadrática dos mecanismos de atenção, resultando em uma latência significativa durante a inferência. Através de uma análise detalhada dos mapas de atenção no Transformer de Difusão de Vídeo (vDiT), identificamos três padrões recorrentes de esparsidade: estruturas diagonais, multi-diagonais e de faixas verticais. Além disso, até 3-6\% das cabeças de atenção podem ser ignoradas. Crucialmente, esses padrões exibem fortes correlações com a profundidade da camada e a posição da cabeça, mas mostram uma dependência limitada do conteúdo de entrada. Aproveitando essas descobertas, propomos o Sparse-vDiT, um framework de aceleração por esparsidade para o vDiT que compreende: 1) Kernels esparsos otimizados por padrão, que substituem a atenção densa por implementações computacionalmente eficientes para cada padrão de esparsidade identificado. 2) Um algoritmo de busca de difusão esparsa offline que seleciona a estratégia de computação esparsa ótima por camada e cabeça através de modelagem de custo consciente do hardware. Após determinar a configuração ótima, fundimos as cabeças dentro da mesma camada que compartilham a mesma estratégia de atenção, aumentando a eficiência da inferência. Integrado aos modelos vDiT de última geração (CogVideoX1.5, HunyuanVideo e Wan2.1), o Sparse-vDiT alcança reduções teóricas de FLOP de 2.09x, 2.38x e 1.67x, e acelerações reais de inferência de 1.76x, 1.85x e 1.58x, respectivamente, enquanto mantém alta fidelidade visual, com valores de PSNR atingindo 24.13, 27.09 e 22.59. Nosso trabalho demonstra que a esparsidade estrutural latente nos vDiTs pode ser sistematicamente explorada para a síntese de vídeos longos.
English
While Diffusion Transformers (DiTs) have achieved breakthroughs in video
generation, this long sequence generation task remains constrained by the
quadratic complexity of attention mechanisms, resulting in significant
inference latency. Through detailed analysis of attention maps in Video
Diffusion Transformer (vDiT), we identify three recurring sparsity patterns:
diagonal, multi-diagonal, and vertical-stripe structures. And even 3-6\%
attention heads can be skipped. Crucially, these patterns exhibit strong
layer-depth and head-position correlations but show limited dependence on the
input content. Leveraging these findings, we propose Sparse-vDiT, a sparsity
acceleration framework for vDiT comprising: 1) Pattern-optimized sparse kernels
that replace dense attention with computationally efficient implementations for
each identified sparsity pattern. 2) An offline sparse diffusion search
algorithm that selects the optimal sparse computation strategy per layer and
head via hardware-aware cost modeling. After determining the optimal
configuration, we fuse heads within the same layer that share the same
attention strategy, enhancing inference efficiency. Integrated into
state-of-the-art vDiT models (CogVideoX1.5, HunyuanVideo, and Wan2.1),
Sparse-vDiT achieves 2.09times, 2.38times, and 1.67times theoretical
FLOP reduction, and actual inference speedups of 1.76times, 1.85times,
and 1.58times, respectively, while maintaining high visual fidelity, with
PSNR values reaching 24.13, 27.09, and 22.59. Our work demonstrates that latent
structural sparsity in vDiTs can be systematically exploited for long video
synthesis.