L'incorporation des pas de temps indique : il est temps de mettre en cache pour le modèle de diffusion vidéo
Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model
November 28, 2024
Auteurs: Feng Liu, Shiwei Zhang, Xiaofeng Wang, Yujie Wei, Haonan Qiu, Yuzhong Zhao, Yingya Zhang, Qixiang Ye, Fang Wan
cs.AI
Résumé
En tant que base fondamentale pour la génération de vidéos, les modèles de diffusion sont confrontés à une faible vitesse d'inférence en raison de la nature séquentielle du débruitage. Les méthodes précédentes accélèrent les modèles en mettant en cache et en réutilisant les sorties du modèle à des intervalles de temps uniformément sélectionnés. Cependant, une telle stratégie néglige le fait que les différences entre les sorties du modèle ne sont pas uniformes à travers les intervalles de temps, ce qui entrave la sélection des sorties du modèle appropriées à mettre en cache, entraînant un mauvais équilibre entre l'efficacité de l'inférence et la qualité visuelle. Dans cette étude, nous introduisons TeaCache (Timestep Embedding Aware Cache), une approche de mise en cache sans entraînement qui estime et exploite les différences fluctuantes entre les sorties du modèle à travers les intervalles de temps. Plutôt que d'utiliser directement les sorties du modèle chronophages, TeaCache se concentre sur les entrées du modèle, qui ont une forte corrélation avec les sorties du modèle tout en entraînant un coût computationnel négligeable. TeaCache module d'abord les entrées bruitées en utilisant les intégrations temporelles pour garantir que leurs différences approximent mieux celles des sorties du modèle. Ensuite, TeaCache introduit une stratégie de mise à l'échelle pour affiner les différences estimées et les utilise pour indiquer la mise en cache des sorties. Les expériences montrent que TeaCache atteint jusqu'à 4,41 fois d'accélération par rapport à Open-Sora-Plan avec une dégradation négligeable du score Vbench (-0,07%) en termes de qualité visuelle.
English
As a fundamental backbone for video generation, diffusion models are
challenged by low inference speed due to the sequential nature of denoising.
Previous methods speed up the models by caching and reusing model outputs at
uniformly selected timesteps. However, such a strategy neglects the fact that
differences among model outputs are not uniform across timesteps, which hinders
selecting the appropriate model outputs to cache, leading to a poor balance
between inference efficiency and visual quality. In this study, we introduce
Timestep Embedding Aware Cache (TeaCache), a training-free caching approach
that estimates and leverages the fluctuating differences among model outputs
across timesteps. Rather than directly using the time-consuming model outputs,
TeaCache focuses on model inputs, which have a strong correlation with the
modeloutputs while incurring negligible computational cost. TeaCache first
modulates the noisy inputs using the timestep embeddings to ensure their
differences better approximating those of model outputs. TeaCache then
introduces a rescaling strategy to refine the estimated differences and
utilizes them to indicate output caching. Experiments show that TeaCache
achieves up to 4.41x acceleration over Open-Sora-Plan with negligible (-0.07%
Vbench score) degradation of visual quality.Summary
AI-Generated Summary