FasterCache: Ускорение модели диффузии видео без обучения с высоким качеством
FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality
October 25, 2024
Авторы: Zhengyao Lv, Chenyang Si, Junhao Song, Zhenyu Yang, Yu Qiao, Ziwei Liu, Kwan-Yee K. Wong
cs.AI
Аннотация
В данной статье мы представляем \textit{FasterCache}, новую стратегию без обучения, разработанную для ускорения вывода моделей видеодиффузии с генерацией высокого качества. Анализируя существующие методы на основе кэша, мы замечаем, что прямое повторное использование признаков соседних шагов приводит к ухудшению качества видео из-за потери тонких вариаций. Мы также проводим первоначальное исследование потенциала ускорения без классификатора (CFG) и раскрываем значительную избыточность между условными и безусловными признаками в пределах одного временного шага. Основываясь на этих наблюдениях, мы представляем FasterCache для существенного ускорения генерации видео на основе диффузии. Наши ключевые вклады включают динамическую стратегию повторного использования признаков, сохраняющую как различие признаков, так и временную непрерывность, и CFG-Cache, который оптимизирует повторное использование условных и безусловных выходов для дальнейшего улучшения скорости вывода без ущерба качеству видео. Мы проводим эмпирическую оценку FasterCache на последних моделях видеодиффузии. Экспериментальные результаты показывают, что FasterCache может значительно ускорить генерацию видео (\ например, ускорение в 1,67 раза на Vchitect-2.0), сохраняя при этом сравнимое с базовым уровнем качество видео, и последовательно превосходит существующие методы как по скорости вывода, так и по качеству видео.
English
In this paper, we present \textit{FasterCache}, a novel
training-free strategy designed to accelerate the inference of video diffusion
models with high-quality generation. By analyzing existing cache-based methods,
we observe that directly reusing adjacent-step features degrades video
quality due to the loss of subtle variations. We further perform a pioneering
investigation of the acceleration potential of classifier-free guidance (CFG)
and reveal significant redundancy between conditional and unconditional
features within the same timestep. Capitalizing on these observations, we
introduce FasterCache to substantially accelerate diffusion-based video
generation. Our key contributions include a dynamic feature reuse strategy that
preserves both feature distinction and temporal continuity, and CFG-Cache which
optimizes the reuse of conditional and unconditional outputs to further enhance
inference speed without compromising video quality. We empirically evaluate
FasterCache on recent video diffusion models. Experimental results show that
FasterCache can significantly accelerate video generation (\eg 1.67times
speedup on Vchitect-2.0) while keeping video quality comparable to the
baseline, and consistently outperform existing methods in both inference speed
and video quality.Summary
AI-Generated Summary