Tijdstap insluiting vertelt: Het is tijd om te cachen voor het video diffusiemodel.
Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model
November 28, 2024
Auteurs: Feng Liu, Shiwei Zhang, Xiaofeng Wang, Yujie Wei, Haonan Qiu, Yuzhong Zhao, Yingya Zhang, Qixiang Ye, Fang Wan
cs.AI
Samenvatting
Als een fundamentele ruggengraat voor videogeneratie worden diffusiemodellen uitgedaagd door een lage inferentiesnelheid als gevolg van de sequentiële aard van denoising. Eerdere methoden versnellen de modellen door het cachen en hergebruiken van modeluitvoer op gelijkmatig geselecteerde tijdstappen. Echter, een dergelijke strategie verwaarloost het feit dat verschillen tussen modeluitvoer niet gelijkmatig zijn over tijdstappen, wat het selecteren van de juiste modeluitvoer om te cachen bemoeilijkt en leidt tot een slecht evenwicht tussen inferentie-efficiëntie en visuele kwaliteit. In deze studie introduceren we Tijdstap Insluitende Bewuste Cache (TeaCache), een trainingsvrije cachelingsbenadering die de fluctuerende verschillen tussen modeluitvoer over tijdstappen schat en benut. In plaats van rechtstreeks gebruik te maken van de tijdrovende modeluitvoer, richt TeaCache zich op modelinputs, die een sterke correlatie hebben met de modeluitvoer en verwaarloosbare computationele kosten met zich meebrengen. TeaCache moduleert eerst de ruisachtige inputs met behulp van de tijdstap insluitingen om ervoor te zorgen dat hun verschillen beter overeenkomen met die van de modeluitvoer. Vervolgens introduceert TeaCache een herschalingsstrategie om de geschatte verschillen te verfijnen en gebruikt deze om de uitvoercaching aan te geven. Experimenten tonen aan dat TeaCache tot 4,41x versnelling bereikt ten opzichte van Open-Sora-Plan met verwaarloosbare (-0,07% Vbench-score) degradatie van visuele kwaliteit.
English
As a fundamental backbone for video generation, diffusion models are
challenged by low inference speed due to the sequential nature of denoising.
Previous methods speed up the models by caching and reusing model outputs at
uniformly selected timesteps. However, such a strategy neglects the fact that
differences among model outputs are not uniform across timesteps, which hinders
selecting the appropriate model outputs to cache, leading to a poor balance
between inference efficiency and visual quality. In this study, we introduce
Timestep Embedding Aware Cache (TeaCache), a training-free caching approach
that estimates and leverages the fluctuating differences among model outputs
across timesteps. Rather than directly using the time-consuming model outputs,
TeaCache focuses on model inputs, which have a strong correlation with the
modeloutputs while incurring negligible computational cost. TeaCache first
modulates the noisy inputs using the timestep embeddings to ensure their
differences better approximating those of model outputs. TeaCache then
introduces a rescaling strategy to refine the estimated differences and
utilizes them to indicate output caching. Experiments show that TeaCache
achieves up to 4.41x acceleration over Open-Sora-Plan with negligible (-0.07%
Vbench score) degradation of visual quality.