Встраивание временного шага говорит: пора кэшировать для модели диффузии видео.
Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model
November 28, 2024
Авторы: Feng Liu, Shiwei Zhang, Xiaofeng Wang, Yujie Wei, Haonan Qiu, Yuzhong Zhao, Yingya Zhang, Qixiang Ye, Fang Wan
cs.AI
Аннотация
В качестве фундаментальной основы для генерации видео диффузионные модели сталкиваются с низкой скоростью вывода из-за последовательной природы денойзинга. Предыдущие методы ускоряли модели путем кэширования и повторного использования выходов модели на равномерно выбранных временных шагах. Однако такая стратегия игнорирует тот факт, что различия между выходами модели неоднородны по временным шагам, что затрудняет выбор подходящих выходов модели для кэширования, что приводит к плохому балансу между эффективностью вывода и качеством изображения. В данном исследовании мы представляем подход TeaCache (Timestep Embedding Aware Cache) - подход к кэшированию без обучения, который оценивает и использует изменчивые различия между выходами модели по временным шагам. Вместо прямого использования времязатратных выходов модели TeaCache фокусируется на входах модели, которые имеют сильную корреляцию с выходами модели, при этом несут незначительные вычислительные затраты. TeaCache сначала модулирует шумные входы, используя вложения временных шагов, чтобы обеспечить лучшее приближение их различий к различиям выходов модели. Затем TeaCache вводит стратегию масштабирования для уточнения оцененных различий и использует их для указания кэширования выхода. Эксперименты показывают, что TeaCache достигает ускорения до 4,41 раза по сравнению с Open-Sora-Plan с незначительным (оценка Vbench -0,07%) ухудшением качества изображения.
English
As a fundamental backbone for video generation, diffusion models are
challenged by low inference speed due to the sequential nature of denoising.
Previous methods speed up the models by caching and reusing model outputs at
uniformly selected timesteps. However, such a strategy neglects the fact that
differences among model outputs are not uniform across timesteps, which hinders
selecting the appropriate model outputs to cache, leading to a poor balance
between inference efficiency and visual quality. In this study, we introduce
Timestep Embedding Aware Cache (TeaCache), a training-free caching approach
that estimates and leverages the fluctuating differences among model outputs
across timesteps. Rather than directly using the time-consuming model outputs,
TeaCache focuses on model inputs, which have a strong correlation with the
modeloutputs while incurring negligible computational cost. TeaCache first
modulates the noisy inputs using the timestep embeddings to ensure their
differences better approximating those of model outputs. TeaCache then
introduces a rescaling strategy to refine the estimated differences and
utilizes them to indicate output caching. Experiments show that TeaCache
achieves up to 4.41x acceleration over Open-Sora-Plan with negligible (-0.07%
Vbench score) degradation of visual quality.Summary
AI-Generated Summary