TurboDiffusion:ビデオ拡散モデルを100~200倍高速化
TurboDiffusion: Accelerating Video Diffusion Models by 100-200 Times
December 18, 2025
著者: Jintao Zhang, Kaiwen Zheng, Kai Jiang, Haoxu Wang, Ion Stoica, Joseph E. Gonzalez, Jianfei Chen, Jun Zhu
cs.AI
要旨
我々はTurboDiffusionを紹介する。これは動画生成の高速化フレームワークであり、動画品質を維持しながら拡散モデルによるエンドツーエンドの生成処理を100~200倍に高速化することができる。TurboDiffusionの高速化は主に以下のコンポーネントに依存している:(1) 注意機構の高速化:低ビットのSageAttentionと学習可能なSparse-Linear Attention(SLA)を用いて注意計算を高速化。(2) ステップ蒸留:効率的なステップ蒸留のためにrCMを採用。(3) W8A8量子化:モデルパラメータと活性化を8ビットに量子化し、線形層の高速化とモデル圧縮を実現。さらに、TurboDiffusionにはその他の工学的最適化も組み込まれている。
Wan2.2-I2V-14B-720P、Wan2.1-T2V-1.3B-480P、Wan2.1-T2V-14B-720P、Wan2.1-T2V-14B-480Pモデルを用いた実験を実施した。実験結果から、単一のRTX 5090 GPU上でも動画生成が100~200倍高速化され、同等の動画品質が維持されることが確認された。モデルチェックポイントと使いやすいコードを含むGitHubリポジトリはhttps://github.com/thu-ml/TurboDiffusionで公開されている。
English
We introduce TurboDiffusion, a video generation acceleration framework that can speed up end-to-end diffusion generation by 100-200x while maintaining video quality. TurboDiffusion mainly relies on several components for acceleration: (1) Attention acceleration: TurboDiffusion uses low-bit SageAttention and trainable Sparse-Linear Attention (SLA) to speed up attention computation. (2) Step distillation: TurboDiffusion adopts rCM for efficient step distillation. (3) W8A8 quantization: TurboDiffusion quantizes model parameters and activations to 8 bits to accelerate linear layers and compress the model. In addition, TurboDiffusion incorporates several other engineering optimizations.
We conduct experiments on the Wan2.2-I2V-14B-720P, Wan2.1-T2V-1.3B-480P, Wan2.1-T2V-14B-720P, and Wan2.1-T2V-14B-480P models. Experimental results show that TurboDiffusion achieves 100-200x speedup for video generation even on a single RTX 5090 GPU, while maintaining comparable video quality. The GitHub repository, which includes model checkpoints and easy-to-use code, is available at https://github.com/thu-ml/TurboDiffusion.