Sparse-vDiT: Liberando el Poder de la Atención Dispersa para Acelerar Transformadores de Difusión de Video
Sparse-vDiT: Unleashing the Power of Sparse Attention to Accelerate Video Diffusion Transformers
June 3, 2025
Autores: Pengtao Chen, Xianfang Zeng, Maosen Zhao, Peng Ye, Mingzhu Shen, Wei Cheng, Gang Yu, Tao Chen
cs.AI
Resumen
Si bien los Transformadores de Difusión (DiTs) han logrado avances en la generación de videos, esta tarea de generación de secuencias largas sigue estando limitada por la complejidad cuadrática de los mecanismos de atención, lo que resulta en una latencia de inferencia significativa. A través de un análisis detallado de los mapas de atención en el Transformador de Difusión de Video (vDiT), identificamos tres patrones de dispersión recurrentes: estructuras diagonales, multi-diagonales y de franjas verticales. Incluso se pueden omitir del 3 al 6\% de las cabezas de atención. Crucialmente, estos patrones exhiben fuertes correlaciones con la profundidad de la capa y la posición de la cabeza, pero muestran una dependencia limitada del contenido de entrada. Aprovechando estos hallazgos, proponemos Sparse-vDiT, un marco de aceleración por dispersión para vDiT que comprende: 1) Kernels dispersos optimizados por patrones que reemplazan la atención densa con implementaciones computacionalmente eficientes para cada patrón de dispersión identificado. 2) Un algoritmo de búsqueda de dispersión difusa fuera de línea que selecciona la estrategia de cálculo disperso óptima por capa y cabeza mediante un modelado de costos consciente del hardware. Después de determinar la configuración óptima, fusionamos las cabezas dentro de la misma capa que comparten la misma estrategia de atención, mejorando la eficiencia de la inferencia. Integrado en modelos vDiT de última generación (CogVideoX1.5, HunyuanVideo y Wan2.1), Sparse-vDiT logra reducciones teóricas de FLOP de 2.09 veces, 2.38 veces y 1.67 veces, y aceleraciones reales de inferencia de 1.76 veces, 1.85 veces y 1.58 veces, respectivamente, mientras mantiene una alta fidelidad visual, con valores de PSNR que alcanzan 24.13, 27.09 y 22.59. Nuestro trabajo demuestra que la dispersión estructural latente en los vDiTs puede ser explotada sistemáticamente para la síntesis de videos largos.
English
While Diffusion Transformers (DiTs) have achieved breakthroughs in video
generation, this long sequence generation task remains constrained by the
quadratic complexity of attention mechanisms, resulting in significant
inference latency. Through detailed analysis of attention maps in Video
Diffusion Transformer (vDiT), we identify three recurring sparsity patterns:
diagonal, multi-diagonal, and vertical-stripe structures. And even 3-6\%
attention heads can be skipped. Crucially, these patterns exhibit strong
layer-depth and head-position correlations but show limited dependence on the
input content. Leveraging these findings, we propose Sparse-vDiT, a sparsity
acceleration framework for vDiT comprising: 1) Pattern-optimized sparse kernels
that replace dense attention with computationally efficient implementations for
each identified sparsity pattern. 2) An offline sparse diffusion search
algorithm that selects the optimal sparse computation strategy per layer and
head via hardware-aware cost modeling. After determining the optimal
configuration, we fuse heads within the same layer that share the same
attention strategy, enhancing inference efficiency. Integrated into
state-of-the-art vDiT models (CogVideoX1.5, HunyuanVideo, and Wan2.1),
Sparse-vDiT achieves 2.09times, 2.38times, and 1.67times theoretical
FLOP reduction, and actual inference speedups of 1.76times, 1.85times,
and 1.58times, respectively, while maintaining high visual fidelity, with
PSNR values reaching 24.13, 27.09, and 22.59. Our work demonstrates that latent
structural sparsity in vDiTs can be systematically exploited for long video
synthesis.