ChatPaper.aiChatPaper

FasterCache: Aceleración de Modelos de Difusión de Video sin Entrenamiento con Alta Calidad

FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality

October 25, 2024
Autores: Zhengyao Lv, Chenyang Si, Junhao Song, Zhenyu Yang, Yu Qiao, Ziwei Liu, Kwan-Yee K. Wong
cs.AI

Resumen

En este documento, presentamos \textit{FasterCache}, una estrategia novedosa sin entrenamiento diseñada para acelerar la inferencia de modelos de difusión de video con generación de alta calidad. Al analizar los métodos existentes basados en caché, observamos que reutilizar directamente características de pasos adyacentes degrada la calidad del video debido a la pérdida de variaciones sutiles. Realizamos además una investigación pionera sobre el potencial de aceleración de la guía sin clasificador (CFG, por sus siglas en inglés) y revelamos una redundancia significativa entre características condicionales y no condicionales dentro del mismo paso de tiempo. Aprovechando estas observaciones, introducimos FasterCache para acelerar sustancialmente la generación de video basada en difusión. Nuestras contribuciones clave incluyen una estrategia dinámica de reutilización de características que preserva tanto la distinción de características como la continuidad temporal, y CFG-Cache que optimiza la reutilización de salidas condicionales y no condicionales para mejorar aún más la velocidad de inferencia sin comprometer la calidad del video. Evaluamos empíricamente FasterCache en modelos recientes de difusión de video. Los resultados experimentales muestran que FasterCache puede acelerar significativamente la generación de video (por ejemplo, 1.67 veces más rápido en Vchitect-2.0) manteniendo una calidad de video comparable al valor base, y superando consistentemente a los métodos existentes tanto en velocidad de inferencia como en calidad de video.
English
In this paper, we present \textit{FasterCache}, a novel training-free strategy designed to accelerate the inference of video diffusion models with high-quality generation. By analyzing existing cache-based methods, we observe that directly reusing adjacent-step features degrades video quality due to the loss of subtle variations. We further perform a pioneering investigation of the acceleration potential of classifier-free guidance (CFG) and reveal significant redundancy between conditional and unconditional features within the same timestep. Capitalizing on these observations, we introduce FasterCache to substantially accelerate diffusion-based video generation. Our key contributions include a dynamic feature reuse strategy that preserves both feature distinction and temporal continuity, and CFG-Cache which optimizes the reuse of conditional and unconditional outputs to further enhance inference speed without compromising video quality. We empirically evaluate FasterCache on recent video diffusion models. Experimental results show that FasterCache can significantly accelerate video generation (\eg 1.67times speedup on Vchitect-2.0) while keeping video quality comparable to the baseline, and consistently outperform existing methods in both inference speed and video quality.

Summary

AI-Generated Summary

PDF232November 16, 2024