ChatPaper.aiChatPaper

TurboDiffusion: Versnelling van Video-Diffusiemodellen met 100-200 keer

TurboDiffusion: Accelerating Video Diffusion Models by 100-200 Times

December 18, 2025
Auteurs: Jintao Zhang, Kaiwen Zheng, Kai Jiang, Haoxu Wang, Ion Stoica, Joseph E. Gonzalez, Jianfei Chen, Jun Zhu
cs.AI

Samenvatting

Wij introduceren TurboDiffusion, een raamwerk voor versnelde videogeneratie dat de end-to-end diffusiegeneratie 100-200x kan versnellen zonder verlies van videokwaliteit. TurboDiffusion steunt voornamelijk op verschillende componenten voor versnelling: (1) *Attention*-versnelling: TurboDiffusion gebruikt *low-bit* SageAttention en trainbare *Sparse-Linear Attention* (SLA) om de *attention*-berekening te versnellen. (2) Stapdistillatie: TurboDiffusion past rCM toe voor efficiënte stapdistillatie. (3) W8A8-kwantisering: TurboDiffusion kwantiseert modelparameters en activaties naar 8 bits om lineaire lagen te versnellen en het model te comprimeren. Daarnaast bevat TurboDiffusion diverse andere technische optimalisaties. Wij voeren experimenten uit op de Wan2.2-I2V-14B-720P, Wan2.1-T2V-1.3B-480P, Wan2.1-T2V-14B-720P en Wan2.1-T2V-14B-480P modellen. Experimentele resultaten tonen aan dat TurboDiffusion een 100-200x versnelling bereikt voor videogeneratie, zelfs op een enkele RTX 5090 GPU, terwijl een vergelijkbare videokwaliteit behouden blijft. De GitHub-repository, die modelcheckpoints en gebruiksvriendelijke code bevat, is beschikbaar op https://github.com/thu-ml/TurboDiffusion.
English
We introduce TurboDiffusion, a video generation acceleration framework that can speed up end-to-end diffusion generation by 100-200x while maintaining video quality. TurboDiffusion mainly relies on several components for acceleration: (1) Attention acceleration: TurboDiffusion uses low-bit SageAttention and trainable Sparse-Linear Attention (SLA) to speed up attention computation. (2) Step distillation: TurboDiffusion adopts rCM for efficient step distillation. (3) W8A8 quantization: TurboDiffusion quantizes model parameters and activations to 8 bits to accelerate linear layers and compress the model. In addition, TurboDiffusion incorporates several other engineering optimizations. We conduct experiments on the Wan2.2-I2V-14B-720P, Wan2.1-T2V-1.3B-480P, Wan2.1-T2V-14B-720P, and Wan2.1-T2V-14B-480P models. Experimental results show that TurboDiffusion achieves 100-200x speedup for video generation even on a single RTX 5090 GPU, while maintaining comparable video quality. The GitHub repository, which includes model checkpoints and easy-to-use code, is available at https://github.com/thu-ml/TurboDiffusion.
PDF471December 26, 2025