FasterCache: Ускорение модели диффузии видео без обучения с высоким качеством

Аннотация

В данной статье мы представляем \textit{FasterCache}, новую стратегию без обучения, разработанную для ускорения вывода моделей видеодиффузии с генерацией высокого качества. Анализируя существующие методы на основе кэша, мы замечаем, что прямое повторное использование признаков соседних шагов приводит к ухудшению качества видео из-за потери тонких вариаций. Мы также проводим первоначальное исследование потенциала ускорения без классификатора (CFG) и раскрываем значительную избыточность между условными и безусловными признаками в пределах одного временного шага. Основываясь на этих наблюдениях, мы представляем FasterCache для существенного ускорения генерации видео на основе диффузии. Наши ключевые вклады включают динамическую стратегию повторного использования признаков, сохраняющую как различие признаков, так и временную непрерывность, и CFG-Cache, который оптимизирует повторное использование условных и безусловных выходов для дальнейшего улучшения скорости вывода без ущерба качеству видео. Мы проводим эмпирическую оценку FasterCache на последних моделях видеодиффузии. Экспериментальные результаты показывают, что FasterCache может значительно ускорить генерацию видео (\ например, ускорение в 1,67 раза на Vchitect-2.0), сохраняя при этом сравнимое с базовым уровнем качество видео, и последовательно превосходит существующие методы как по скорости вывода, так и по качеству видео.

English

In this paper, we present \textit{FasterCache}, a novel training-free strategy designed to accelerate the inference of video diffusion models with high-quality generation. By analyzing existing cache-based methods, we observe that directly reusing adjacent-step features degrades video quality due to the loss of subtle variations. We further perform a pioneering investigation of the acceleration potential of classifier-free guidance (CFG) and reveal significant redundancy between conditional and unconditional features within the same timestep. Capitalizing on these observations, we introduce FasterCache to substantially accelerate diffusion-based video generation. Our key contributions include a dynamic feature reuse strategy that preserves both feature distinction and temporal continuity, and CFG-Cache which optimizes the reuse of conditional and unconditional outputs to further enhance inference speed without compromising video quality. We empirically evaluate FasterCache on recent video diffusion models. Experimental results show that FasterCache can significantly accelerate video generation (\eg 1.67times speedup on Vchitect-2.0) while keeping video quality comparable to the baseline, and consistently outperform existing methods in both inference speed and video quality.

FasterCache: Ускорение модели диффузии видео без обучения с высоким качеством

FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality

Аннотация

Support