TurboDiffusion: Beschleunigung von Video-Diffusionsmodellen um das 100-200-fache
TurboDiffusion: Accelerating Video Diffusion Models by 100-200 Times
December 18, 2025
papers.authors: Jintao Zhang, Kaiwen Zheng, Kai Jiang, Haoxu Wang, Ion Stoica, Joseph E. Gonzalez, Jianfei Chen, Jun Zhu
cs.AI
papers.abstract
Wir stellen TurboDiffusion vor, ein Beschleunigungsframework für die Videogenerierung, das die end-to-end Diffusionsgenerierung um das 100-200-fache beschleunigen kann, während die Videoqualität erhalten bleibt. TurboDiffusion stützt sich für die Beschleunigung hauptsächlich auf mehrere Komponenten: (1) Aufmerksamkeitsbeschleunigung: TurboDiffusion verwendet Low-Bit-SageAttention und trainierbare Sparse-Linear-Attention (SLA), um die Aufmerksamkeitsberechnung zu beschleunigen. (2) Schritt-Distillation: TurboDiffusion übernimmt rCM für eine effiziente Schritt-Distillation. (3) W8A8-Quantisierung: TurboDiffusion quantisiert Modellparameter und Aktivierungen auf 8 Bit, um lineare Schichten zu beschleunigen und das Modell zu komprimieren. Darüber hinaus integriert TurboDiffusion mehrere weitere technische Optimierungen.
Wir führen Experimente mit den Modellen Wan2.2-I2V-14B-720P, Wan2.1-T2V-1.3B-480P, Wan2.1-T2V-14B-720P und Wan2.1-T2V-14B-480P durch. Die experimentellen Ergebnisse zeigen, dass TurboDiffusion selbst auf einer einzelnen RTX-5090-GPU eine 100-200-fache Beschleunigung der Videogenerierung erreicht, bei vergleichbarer Videoqualität. Das GitHub-Repository, das Modell-Checkpoints und einfach zu verwendenden Code enthält, ist unter https://github.com/thu-ml/TurboDiffusion verfügbar.
English
We introduce TurboDiffusion, a video generation acceleration framework that can speed up end-to-end diffusion generation by 100-200x while maintaining video quality. TurboDiffusion mainly relies on several components for acceleration: (1) Attention acceleration: TurboDiffusion uses low-bit SageAttention and trainable Sparse-Linear Attention (SLA) to speed up attention computation. (2) Step distillation: TurboDiffusion adopts rCM for efficient step distillation. (3) W8A8 quantization: TurboDiffusion quantizes model parameters and activations to 8 bits to accelerate linear layers and compress the model. In addition, TurboDiffusion incorporates several other engineering optimizations.
We conduct experiments on the Wan2.2-I2V-14B-720P, Wan2.1-T2V-1.3B-480P, Wan2.1-T2V-14B-720P, and Wan2.1-T2V-14B-480P models. Experimental results show that TurboDiffusion achieves 100-200x speedup for video generation even on a single RTX 5090 GPU, while maintaining comparable video quality. The GitHub repository, which includes model checkpoints and easy-to-use code, is available at https://github.com/thu-ml/TurboDiffusion.