ChatPaper.aiChatPaper

TurboDiffusion: Aceleración de Modelos de Difusión de Video en 100-200 Veces

TurboDiffusion: Accelerating Video Diffusion Models by 100-200 Times

December 18, 2025
Autores: Jintao Zhang, Kaiwen Zheng, Kai Jiang, Haoxu Wang, Ion Stoica, Joseph E. Gonzalez, Jianfei Chen, Jun Zhu
cs.AI

Resumen

Presentamos TurboDiffusion, un marco de aceleración para la generación de vídeo que puede acelerar la generación por difusión de extremo a extremo entre 100 y 200 veces manteniendo la calidad del vídeo. TurboDiffusion se basa principalmente en varios componentes para la aceleración: (1) Aceleración de la atención: TurboDiffusion utiliza SageAttention de bajo bit y Atención Dispersa Lineal (SLA) entrenable para acelerar el cálculo de atención. (2) Destilación de pasos: TurboDiffusion adopta rCM para una destilación de pasos eficiente. (3) Cuantificación W8A8: TurboDiffusion cuantifica los parámetros y activaciones del modelo a 8 bits para acelerar las capas lineales y comprimir el modelo. Además, TurboDiffusion incorpora otras optimizaciones de ingeniería. Realizamos experimentos en los modelos Wan2.2-I2V-14B-720P, Wan2.1-T2V-1.3B-480P, Wan2.1-T2V-14B-720P y Wan2.1-T2V-14B-480P. Los resultados experimentales muestran que TurboDiffusion logra una aceleración de 100 a 200 veces en la generación de vídeo incluso en una única GPU RTX 5090, manteniendo una calidad de vídeo comparable. El repositorio de GitHub, que incluye puntos de control del modelo y código fácil de usar, está disponible en https://github.com/thu-ml/TurboDiffusion.
English
We introduce TurboDiffusion, a video generation acceleration framework that can speed up end-to-end diffusion generation by 100-200x while maintaining video quality. TurboDiffusion mainly relies on several components for acceleration: (1) Attention acceleration: TurboDiffusion uses low-bit SageAttention and trainable Sparse-Linear Attention (SLA) to speed up attention computation. (2) Step distillation: TurboDiffusion adopts rCM for efficient step distillation. (3) W8A8 quantization: TurboDiffusion quantizes model parameters and activations to 8 bits to accelerate linear layers and compress the model. In addition, TurboDiffusion incorporates several other engineering optimizations. We conduct experiments on the Wan2.2-I2V-14B-720P, Wan2.1-T2V-1.3B-480P, Wan2.1-T2V-14B-720P, and Wan2.1-T2V-14B-480P models. Experimental results show that TurboDiffusion achieves 100-200x speedup for video generation even on a single RTX 5090 GPU, while maintaining comparable video quality. The GitHub repository, which includes model checkpoints and easy-to-use code, is available at https://github.com/thu-ml/TurboDiffusion.
PDF471December 26, 2025