Incorporação de Intervalo de Tempo Revela: É Hora de Fazer Cache para o Modelo de Difusão de Vídeo
Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model
November 28, 2024
Autores: Feng Liu, Shiwei Zhang, Xiaofeng Wang, Yujie Wei, Haonan Qiu, Yuzhong Zhao, Yingya Zhang, Qixiang Ye, Fang Wan
cs.AI
Resumo
Como um alicerce fundamental para a geração de vídeos, os modelos de difusão são desafiados pela baixa velocidade de inferência devido à natureza sequencial do processo de remoção de ruído. Métodos anteriores aceleram os modelos armazenando em cache e reutilizando as saídas do modelo em intervalos de tempo uniformemente selecionados. No entanto, tal estratégia negligencia o fato de que as diferenças entre as saídas do modelo não são uniformes ao longo dos intervalos de tempo, o que dificulta a seleção das saídas do modelo apropriadas para armazenamento em cache, resultando em um equilíbrio inadequado entre eficiência de inferência e qualidade visual. Neste estudo, apresentamos o TeaCache (Timestep Embedding Aware Cache), uma abordagem de armazenamento em cache sem treinamento que estima e aproveita as diferenças flutuantes entre as saídas do modelo ao longo dos intervalos de tempo. Em vez de usar diretamente as saídas do modelo que consomem tempo, o TeaCache foca nos inputs do modelo, que possuem uma forte correlação com as saídas do modelo e acarretam um custo computacional negligenciável. O TeaCache primeiro modula os inputs ruidosos usando os embeddings de intervalo de tempo para garantir que suas diferenças aproximem melhor as das saídas do modelo. Em seguida, o TeaCache introduz uma estratégia de reescalonamento para refinar as diferenças estimadas e as utiliza para indicar o armazenamento em cache das saídas. Experimentos mostram que o TeaCache alcança até 4,41 vezes de aceleração em relação ao Open-Sora-Plan com uma degradação de qualidade visual negligenciável (-0,07% no escore Vbench).
English
As a fundamental backbone for video generation, diffusion models are
challenged by low inference speed due to the sequential nature of denoising.
Previous methods speed up the models by caching and reusing model outputs at
uniformly selected timesteps. However, such a strategy neglects the fact that
differences among model outputs are not uniform across timesteps, which hinders
selecting the appropriate model outputs to cache, leading to a poor balance
between inference efficiency and visual quality. In this study, we introduce
Timestep Embedding Aware Cache (TeaCache), a training-free caching approach
that estimates and leverages the fluctuating differences among model outputs
across timesteps. Rather than directly using the time-consuming model outputs,
TeaCache focuses on model inputs, which have a strong correlation with the
modeloutputs while incurring negligible computational cost. TeaCache first
modulates the noisy inputs using the timestep embeddings to ensure their
differences better approximating those of model outputs. TeaCache then
introduces a rescaling strategy to refine the estimated differences and
utilizes them to indicate output caching. Experiments show that TeaCache
achieves up to 4.41x acceleration over Open-Sora-Plan with negligible (-0.07%
Vbench score) degradation of visual quality.Summary
AI-Generated Summary