TurboDiffusion: Ускорение видео-диффузионных моделей в 100–200 раз
TurboDiffusion: Accelerating Video Diffusion Models by 100-200 Times
December 18, 2025
Авторы: Jintao Zhang, Kaiwen Zheng, Kai Jiang, Haoxu Wang, Ion Stoica, Joseph E. Gonzalez, Jianfei Chen, Jun Zhu
cs.AI
Аннотация
Мы представляем TurboDiffusion — фреймворк для ускорения генерации видео, который способен ускорить сквозную диффузионную генерацию в 100–200 раз при сохранении качества видео. Основное ускорение в TurboDiffusion достигается за счет нескольких компонентов: (1) Ускорение механизма внимания: TurboDiffusion использует низкоразрядный SageAttention и обучаемый разреженно-линейный механизм внимания (SLA) для ускорения вычислений внимания. (2) Дистилляция шагов: TurboDiffusion применяет rCM для эффективной дистилляции шагов. (3) Квантование W8A8: TurboDiffusion квантует параметры модели и активации до 8 бит для ускорения линейных слоев и сжатия модели. Кроме того, TurboDiffusion включает ряд других инженерных оптимизаций.
Мы провели эксперименты на моделях Wan2.2-I2V-14B-720P, Wan2.1-T2V-1.3B-480P, Wan2.1-T2V-14B-720P и Wan2.1-T2V-14B-480P. Результаты экспериментов показывают, что TurboDiffusion обеспечивает ускорение генерации видео в 100–200 раз даже на одной видеокарте RTX 5090, сохраняя при этом сопоставимое качество видео. GitHub-репозиторий, включающий контрольные точки моделей и простой в использовании код, доступен по адресу https://github.com/thu-ml/TurboDiffusion.
English
We introduce TurboDiffusion, a video generation acceleration framework that can speed up end-to-end diffusion generation by 100-200x while maintaining video quality. TurboDiffusion mainly relies on several components for acceleration: (1) Attention acceleration: TurboDiffusion uses low-bit SageAttention and trainable Sparse-Linear Attention (SLA) to speed up attention computation. (2) Step distillation: TurboDiffusion adopts rCM for efficient step distillation. (3) W8A8 quantization: TurboDiffusion quantizes model parameters and activations to 8 bits to accelerate linear layers and compress the model. In addition, TurboDiffusion incorporates several other engineering optimizations.
We conduct experiments on the Wan2.2-I2V-14B-720P, Wan2.1-T2V-1.3B-480P, Wan2.1-T2V-14B-720P, and Wan2.1-T2V-14B-480P models. Experimental results show that TurboDiffusion achieves 100-200x speedup for video generation even on a single RTX 5090 GPU, while maintaining comparable video quality. The GitHub repository, which includes model checkpoints and easy-to-use code, is available at https://github.com/thu-ml/TurboDiffusion.