ChatPaper.aiChatPaper

TurboDiffusion : Accélération des modèles de diffusion vidéo par un facteur de 100 à 200

TurboDiffusion: Accelerating Video Diffusion Models by 100-200 Times

December 18, 2025
papers.authors: Jintao Zhang, Kaiwen Zheng, Kai Jiang, Haoxu Wang, Ion Stoica, Joseph E. Gonzalez, Jianfei Chen, Jun Zhu
cs.AI

papers.abstract

Nous présentons TurboDiffusion, un cadre d'accélération pour la génération vidéo capable d'accélérer la génération par diffusion de bout en bout d'un facteur 100 à 200 tout en préservant la qualité vidéo. TurboDiffusion repose principalement sur plusieurs composants pour l'accélération : (1) Accélération de l'attention : TurboDiffusion utilise la SageAttention en basse précision et l'Attention Sparse-Linéaire (SLA) entraînable pour accélérer le calcul de l'attention. (2) Distillation d'étapes : TurboDiffusion adopte la rCM pour une distillation d'étapes efficace. (3) Quantification W8A8 : TurboDiffusion quantifie les paramètres du modèle et les activations sur 8 bits pour accélérer les couches linéaires et compresser le modèle. De plus, TurboDiffusion intègre plusieurs autres optimisations techniques. Nous menons des expériences sur les modèles Wan2.2-I2V-14B-720P, Wan2.1-T2V-1.3B-480P, Wan2.1-T2V-14B-720P et Wan2.1-T2V-14B-480P. Les résultats expérimentaux montrent que TurboDiffusion atteint une accélération de 100 à 200 fois pour la génération vidéo, même sur une seule GPU RTX 5090, tout en maintenant une qualité vidéo comparable. Le dépôt GitHub, qui inclut les points de contrôle des modèles et un code facile à utiliser, est disponible à l'adresse https://github.com/thu-ml/TurboDiffusion.
English
We introduce TurboDiffusion, a video generation acceleration framework that can speed up end-to-end diffusion generation by 100-200x while maintaining video quality. TurboDiffusion mainly relies on several components for acceleration: (1) Attention acceleration: TurboDiffusion uses low-bit SageAttention and trainable Sparse-Linear Attention (SLA) to speed up attention computation. (2) Step distillation: TurboDiffusion adopts rCM for efficient step distillation. (3) W8A8 quantization: TurboDiffusion quantizes model parameters and activations to 8 bits to accelerate linear layers and compress the model. In addition, TurboDiffusion incorporates several other engineering optimizations. We conduct experiments on the Wan2.2-I2V-14B-720P, Wan2.1-T2V-1.3B-480P, Wan2.1-T2V-14B-720P, and Wan2.1-T2V-14B-480P models. Experimental results show that TurboDiffusion achieves 100-200x speedup for video generation even on a single RTX 5090 GPU, while maintaining comparable video quality. The GitHub repository, which includes model checkpoints and easy-to-use code, is available at https://github.com/thu-ml/TurboDiffusion.
PDF471December 26, 2025