ChatPaper.aiChatPaper

TurboDiffusion: Accelerazione dei Modelli di Diffusione Video di 100-200 Volte

TurboDiffusion: Accelerating Video Diffusion Models by 100-200 Times

December 18, 2025
Autori: Jintao Zhang, Kaiwen Zheng, Kai Jiang, Haoxu Wang, Ion Stoica, Joseph E. Gonzalez, Jianfei Chen, Jun Zhu
cs.AI

Abstract

Introduciamo TurboDiffusion, un framework per l'accelerazione della generazione video in grado di velocizzare la generazione diffusion end-to-end di 100-200 volte mantenendo la qualità video. TurboDiffusion si basa principalmente su diversi componenti per l'accelerazione: (1) Accelerazione dell'attention: TurboDiffusion utilizza SageAttention a basso bit e Sparse-Linear Attention (SLA) addestrabile per velocizzare il calcolo dell'attention. (2) Step distillation: TurboDiffusion adotta rCM per una efficiente step distillation. (3) Quantizzazione W8A8: TurboDiffusion quantizza i parametri del modello e le attivazioni a 8 bit per accelerare i layer lineari e comprimere il modello. Inoltre, TurboDiffusion incorpora diverse altre ottimizzazioni ingegneristiche. Abbiamo condotto esperimenti sui modelli Wan2.2-I2V-14B-720P, Wan2.1-T2V-1.3B-480P, Wan2.1-T2V-14B-720P e Wan2.1-T2V-14B-480P. I risultati sperimentali mostrano che TurboDiffusion raggiunge un'accelerazione di 100-200 volte per la generazione video anche su una singola GPU RTX 5090, mantenendo una qualità video comparabile. Il repository GitHub, che include i checkpoint del modello e codice di facile utilizzo, è disponibile all'indirizzo https://github.com/thu-ml/TurboDiffusion.
English
We introduce TurboDiffusion, a video generation acceleration framework that can speed up end-to-end diffusion generation by 100-200x while maintaining video quality. TurboDiffusion mainly relies on several components for acceleration: (1) Attention acceleration: TurboDiffusion uses low-bit SageAttention and trainable Sparse-Linear Attention (SLA) to speed up attention computation. (2) Step distillation: TurboDiffusion adopts rCM for efficient step distillation. (3) W8A8 quantization: TurboDiffusion quantizes model parameters and activations to 8 bits to accelerate linear layers and compress the model. In addition, TurboDiffusion incorporates several other engineering optimizations. We conduct experiments on the Wan2.2-I2V-14B-720P, Wan2.1-T2V-1.3B-480P, Wan2.1-T2V-14B-720P, and Wan2.1-T2V-14B-480P models. Experimental results show that TurboDiffusion achieves 100-200x speedup for video generation even on a single RTX 5090 GPU, while maintaining comparable video quality. The GitHub repository, which includes model checkpoints and easy-to-use code, is available at https://github.com/thu-ml/TurboDiffusion.
PDF957February 8, 2026