時間ステップ埋め込みによって示される:ビデオ拡散モデルのためのキャッシュの時間
Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model
November 28, 2024
著者: Feng Liu, Shiwei Zhang, Xiaofeng Wang, Yujie Wei, Haonan Qiu, Yuzhong Zhao, Yingya Zhang, Qixiang Ye, Fang Wan
cs.AI
要旨
ビデオ生成の基本的なバックボーンとして、拡散モデルは、ノイズ除去の連続的な性質による低推論速度の課題に直面しています。従来の手法は、モデルの出力をキャッシュし、一定のタイムステップで再利用することでモデルの速度を向上させてきました。しかし、このような戦略は、モデルの出力間の差異がタイムステップごとに一様でないという事実を無視しており、適切なモデルの出力をキャッシュする際のバランスを損ない、推論効率と視覚品質の間に適切なバランスを生じさせています。本研究では、トレーニング不要のキャッシング手法であるTimestep Embedding Aware Cache(TeaCache)を導入し、タイムステップ間でモデルの出力の変動する差異を推定して活用します。時間のかかるモデルの出力を直接使用するのではなく、TeaCacheは、計算コストをほとんどかけずにモデルの出力と強い相関関係を持つモデルの入力に焦点を当てます。TeaCacheは、最初にタイムステップ埋め込みを使用してノイズのある入力を調整し、その差異がモデルの出力により適切に近似するようにします。次に、TeaCacheは、推定された差異を洗練するための再スケーリング戦略を導入し、それらを出力のキャッシングを示すために利用します。実験結果によると、TeaCacheは、視覚品質の劣化がほとんどない(-0.07%のVbenchスコア)状態で、Open-Sora-Planよりも最大4.41倍の加速を実現しています。
English
As a fundamental backbone for video generation, diffusion models are
challenged by low inference speed due to the sequential nature of denoising.
Previous methods speed up the models by caching and reusing model outputs at
uniformly selected timesteps. However, such a strategy neglects the fact that
differences among model outputs are not uniform across timesteps, which hinders
selecting the appropriate model outputs to cache, leading to a poor balance
between inference efficiency and visual quality. In this study, we introduce
Timestep Embedding Aware Cache (TeaCache), a training-free caching approach
that estimates and leverages the fluctuating differences among model outputs
across timesteps. Rather than directly using the time-consuming model outputs,
TeaCache focuses on model inputs, which have a strong correlation with the
modeloutputs while incurring negligible computational cost. TeaCache first
modulates the noisy inputs using the timestep embeddings to ensure their
differences better approximating those of model outputs. TeaCache then
introduces a rescaling strategy to refine the estimated differences and
utilizes them to indicate output caching. Experiments show that TeaCache
achieves up to 4.41x acceleration over Open-Sora-Plan with negligible (-0.07%
Vbench score) degradation of visual quality.Summary
AI-Generated Summary