TurboDiffusion: Acelerando Modelos de Difusão de Vídeo em 100 a 200 Vezes
TurboDiffusion: Accelerating Video Diffusion Models by 100-200 Times
December 18, 2025
Autores: Jintao Zhang, Kaiwen Zheng, Kai Jiang, Haoxu Wang, Ion Stoica, Joseph E. Gonzalez, Jianfei Chen, Jun Zhu
cs.AI
Resumo
Apresentamos o TurboDiffusion, uma estrutura de aceleração de geração de vídeo que pode acelerar a geração por difusão de ponta a ponta em 100 a 200 vezes, mantendo a qualidade do vídeo. O TurboDiffusion baseia-se principalmente em vários componentes para a aceleração: (1) Aceleração de atenção: o TurboDiffusion utiliza SageAttention de baixo bit e Atenção Esparsa Linear (SLA) treinável para acelerar o cálculo de atenção. (2) Destilação de passos: o TurboDiffusion adota o rCM para uma destilação de passos eficiente. (3) Quantização W8A8: o TurboDiffusion quantiza os parâmetros do modelo e as ativações para 8 bits para acelerar as camadas lineares e comprimir o modelo. Além disso, o TurboDiffusion incorpora várias outras otimizações de engenharia.
Realizamos experimentos nos modelos Wan2.2-I2V-14B-720P, Wan2.1-T2V-1.3B-480P, Wan2.1-T2V-14B-720P e Wan2.1-T2V-14B-480P. Os resultados experimentais mostram que o TurboDiffusion alcança uma aceleração de 100 a 200 vezes na geração de vídeo, mesmo em uma única GPU RTX 5090, mantendo uma qualidade de vídeo comparável. O repositório GitHub, que inclui *checkpoints* do modelo e código de fácil utilização, está disponível em https://github.com/thu-ml/TurboDiffusion.
English
We introduce TurboDiffusion, a video generation acceleration framework that can speed up end-to-end diffusion generation by 100-200x while maintaining video quality. TurboDiffusion mainly relies on several components for acceleration: (1) Attention acceleration: TurboDiffusion uses low-bit SageAttention and trainable Sparse-Linear Attention (SLA) to speed up attention computation. (2) Step distillation: TurboDiffusion adopts rCM for efficient step distillation. (3) W8A8 quantization: TurboDiffusion quantizes model parameters and activations to 8 bits to accelerate linear layers and compress the model. In addition, TurboDiffusion incorporates several other engineering optimizations.
We conduct experiments on the Wan2.2-I2V-14B-720P, Wan2.1-T2V-1.3B-480P, Wan2.1-T2V-14B-720P, and Wan2.1-T2V-14B-480P models. Experimental results show that TurboDiffusion achieves 100-200x speedup for video generation even on a single RTX 5090 GPU, while maintaining comparable video quality. The GitHub repository, which includes model checkpoints and easy-to-use code, is available at https://github.com/thu-ml/TurboDiffusion.