Incrustación de Paso Temporal: Es Hora de Cachear para el Modelo de Difusión de Video
Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model
November 28, 2024
Autores: Feng Liu, Shiwei Zhang, Xiaofeng Wang, Yujie Wei, Haonan Qiu, Yuzhong Zhao, Yingya Zhang, Qixiang Ye, Fang Wan
cs.AI
Resumen
Como columna vertebral fundamental para la generación de video, los modelos de difusión se enfrentan a la baja velocidad de inferencia debido a la naturaleza secuencial del proceso de eliminación de ruido. Métodos previos aceleran los modelos mediante el almacenamiento en caché y reutilización de salidas del modelo en pasos de tiempo uniformemente seleccionados. Sin embargo, esta estrategia pasa por alto el hecho de que las diferencias entre las salidas del modelo no son uniformes en todos los pasos de tiempo, lo que dificulta seleccionar las salidas del modelo adecuadas para almacenar en caché, lo que resulta en un desequilibrio entre la eficiencia de inferencia y la calidad visual. En este estudio, presentamos TeaCache (Caché de Conciencia de Incrustación de Pasos de Tiempo), un enfoque de almacenamiento en caché sin entrenamiento que estima y aprovecha las diferencias fluctuantes entre las salidas del modelo a lo largo de los pasos de tiempo. En lugar de utilizar directamente las salidas del modelo que consumen mucho tiempo, TeaCache se centra en las entradas del modelo, que tienen una fuerte correlación con las salidas del modelo y con un costo computacional insignificante. TeaCache primero modula las entradas ruidosas utilizando las incrustaciones de pasos de tiempo para garantizar que sus diferencias se aproximen mejor a las de las salidas del modelo. Luego, TeaCache introduce una estrategia de reescalado para refinar las diferencias estimadas y las utiliza para indicar el almacenamiento en caché de las salidas. Los experimentos muestran que TeaCache logra una aceleración de hasta 4.41 veces sobre Open-Sora-Plan con una degradación de calidad visual insignificante (-0.07% en la puntuación Vbench).
English
As a fundamental backbone for video generation, diffusion models are
challenged by low inference speed due to the sequential nature of denoising.
Previous methods speed up the models by caching and reusing model outputs at
uniformly selected timesteps. However, such a strategy neglects the fact that
differences among model outputs are not uniform across timesteps, which hinders
selecting the appropriate model outputs to cache, leading to a poor balance
between inference efficiency and visual quality. In this study, we introduce
Timestep Embedding Aware Cache (TeaCache), a training-free caching approach
that estimates and leverages the fluctuating differences among model outputs
across timesteps. Rather than directly using the time-consuming model outputs,
TeaCache focuses on model inputs, which have a strong correlation with the
modeloutputs while incurring negligible computational cost. TeaCache first
modulates the noisy inputs using the timestep embeddings to ensure their
differences better approximating those of model outputs. TeaCache then
introduces a rescaling strategy to refine the estimated differences and
utilizes them to indicate output caching. Experiments show that TeaCache
achieves up to 4.41x acceleration over Open-Sora-Plan with negligible (-0.07%
Vbench score) degradation of visual quality.Summary
AI-Generated Summary