Incorporação de Intervalo de Tempo Revela: É Hora de Fazer Cache para o Modelo de Difusão de Vídeo

Resumo

Como um alicerce fundamental para a geração de vídeos, os modelos de difusão são desafiados pela baixa velocidade de inferência devido à natureza sequencial do processo de remoção de ruído. Métodos anteriores aceleram os modelos armazenando em cache e reutilizando as saídas do modelo em intervalos de tempo uniformemente selecionados. No entanto, tal estratégia negligencia o fato de que as diferenças entre as saídas do modelo não são uniformes ao longo dos intervalos de tempo, o que dificulta a seleção das saídas do modelo apropriadas para armazenamento em cache, resultando em um equilíbrio inadequado entre eficiência de inferência e qualidade visual. Neste estudo, apresentamos o TeaCache (Timestep Embedding Aware Cache), uma abordagem de armazenamento em cache sem treinamento que estima e aproveita as diferenças flutuantes entre as saídas do modelo ao longo dos intervalos de tempo. Em vez de usar diretamente as saídas do modelo que consomem tempo, o TeaCache foca nos inputs do modelo, que possuem uma forte correlação com as saídas do modelo e acarretam um custo computacional negligenciável. O TeaCache primeiro modula os inputs ruidosos usando os embeddings de intervalo de tempo para garantir que suas diferenças aproximem melhor as das saídas do modelo. Em seguida, o TeaCache introduz uma estratégia de reescalonamento para refinar as diferenças estimadas e as utiliza para indicar o armazenamento em cache das saídas. Experimentos mostram que o TeaCache alcança até 4,41 vezes de aceleração em relação ao Open-Sora-Plan com uma degradação de qualidade visual negligenciável (-0,07% no escore Vbench).

English

As a fundamental backbone for video generation, diffusion models are challenged by low inference speed due to the sequential nature of denoising. Previous methods speed up the models by caching and reusing model outputs at uniformly selected timesteps. However, such a strategy neglects the fact that differences among model outputs are not uniform across timesteps, which hinders selecting the appropriate model outputs to cache, leading to a poor balance between inference efficiency and visual quality. In this study, we introduce Timestep Embedding Aware Cache (TeaCache), a training-free caching approach that estimates and leverages the fluctuating differences among model outputs across timesteps. Rather than directly using the time-consuming model outputs, TeaCache focuses on model inputs, which have a strong correlation with the modeloutputs while incurring negligible computational cost. TeaCache first modulates the noisy inputs using the timestep embeddings to ensure their differences better approximating those of model outputs. TeaCache then introduces a rescaling strategy to refine the estimated differences and utilizes them to indicate output caching. Experiments show that TeaCache achieves up to 4.41x acceleration over Open-Sora-Plan with negligible (-0.07% Vbench score) degradation of visual quality.

Incorporação de Intervalo de Tempo Revela: É Hora de Fazer Cache para o Modelo de Difusão de Vídeo

Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model

Resumo

Support