ChatPaper.aiChatPaper

Zeitschritteinbettung sagt: Es ist Zeit, für das Video-Diffusionsmodell zu zwischenspeichern.

Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model

November 28, 2024
Autoren: Feng Liu, Shiwei Zhang, Xiaofeng Wang, Yujie Wei, Haonan Qiu, Yuzhong Zhao, Yingya Zhang, Qixiang Ye, Fang Wan
cs.AI

Zusammenfassung

Als grundlegende Grundlage für die Videogenerierung werden Diffusionsmodelle durch die geringe Inferenzgeschwindigkeit aufgrund der sequenziellen Natur des Denoisings herausgefordert. Frühere Methoden beschleunigen die Modelle, indem sie Modellausgaben zwischenspeichern und wiederverwenden, die gleichmäßig ausgewählten Zeitpunkten entsprechen. Diese Strategie vernachlässigt jedoch die Tatsache, dass die Unterschiede zwischen den Modellausgaben nicht gleichmäßig über die Zeitpunkte verteilt sind, was die Auswahl der geeigneten Modellausgaben zum Zwischenspeichern erschwert und zu einem schlechten Gleichgewicht zwischen Inferenzeffizienz und visueller Qualität führt. In dieser Studie stellen wir Timestep Embedding Aware Cache (TeaCache) vor, einen trainingsfreien Zwischenspeicherungsansatz, der die schwankenden Unterschiede zwischen den Modellausgaben über die Zeitpunkte hinweg schätzt und nutzt. Anstatt die zeitaufwändigen Modellausgaben direkt zu verwenden, konzentriert sich TeaCache auf die Modellinputs, die eine starke Korrelation mit den Modellausgaben aufweisen und dabei vernachlässigbare Rechenkosten verursachen. TeaCache moduliert zunächst die rauschhaften Inputs mithilfe der Zeitpunkt-Einbettungen, um sicherzustellen, dass ihre Unterschiede diejenigen der Modellausgaben besser approximieren. Anschließend führt TeaCache eine Skalierungsstrategie ein, um die geschätzten Unterschiede zu verfeinern und nutzt sie zur Anzeige der Ausgabenzwischenspeicherung. Experimente zeigen, dass TeaCache eine Beschleunigung um bis zu 4,41-fache gegenüber Open-Sora-Plan erreicht, bei vernachlässigbarer (-0,07% Vbench-Score) Verschlechterung der visuellen Qualität.
English
As a fundamental backbone for video generation, diffusion models are challenged by low inference speed due to the sequential nature of denoising. Previous methods speed up the models by caching and reusing model outputs at uniformly selected timesteps. However, such a strategy neglects the fact that differences among model outputs are not uniform across timesteps, which hinders selecting the appropriate model outputs to cache, leading to a poor balance between inference efficiency and visual quality. In this study, we introduce Timestep Embedding Aware Cache (TeaCache), a training-free caching approach that estimates and leverages the fluctuating differences among model outputs across timesteps. Rather than directly using the time-consuming model outputs, TeaCache focuses on model inputs, which have a strong correlation with the modeloutputs while incurring negligible computational cost. TeaCache first modulates the noisy inputs using the timestep embeddings to ensure their differences better approximating those of model outputs. TeaCache then introduces a rescaling strategy to refine the estimated differences and utilizes them to indicate output caching. Experiments show that TeaCache achieves up to 4.41x acceleration over Open-Sora-Plan with negligible (-0.07% Vbench score) degradation of visual quality.

Summary

AI-Generated Summary

PDF192December 2, 2024