ZeroSmooth: Adaptação de Difusores sem Treinamento para Geração de Vídeos com Alta Taxa de Quadros
ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation
June 3, 2024
Autores: Shaoshu Yang, Yong Zhang, Xiaodong Cun, Ying Shan, Ran He
cs.AI
Resumo
A geração de vídeos tem feito progressos notáveis nos últimos anos, especialmente desde o advento dos modelos de difusão de vídeo. Muitos modelos de geração de vídeos podem produzir vídeos sintéticos plausíveis, como o Stable Video Diffusion (SVD). No entanto, a maioria dos modelos de vídeo só consegue gerar vídeos com baixa taxa de quadros devido à memória limitada da GPU e à dificuldade de modelar um grande conjunto de quadros. Os vídeos de treinamento são sempre amostrados uniformemente em um intervalo especificado para compressão temporal. Métodos anteriores aumentam a taxa de quadros treinando um modelo de interpolação de vídeo no espaço de pixels como uma etapa de pós-processamento ou treinando um modelo de interpolação no espaço latente para um modelo de vídeo base específico. Neste artigo, propomos um método de interpolação de vídeo sem treinamento para modelos de difusão de vídeo generativos, que é generalizável para diferentes modelos de maneira plug-and-play. Investigamos a não linearidade no espaço de características dos modelos de difusão de vídeo e transformamos um modelo de vídeo em um modelo de difusão de vídeo autocascateado, incorporando os módulos de correção de estado oculto projetados. A arquitetura autocascateada e o módulo de correção são propostos para manter a consistência temporal entre os quadros-chave e os quadros interpolados. Avaliações extensivas são realizadas em vários modelos de vídeo populares para demonstrar a eficácia do método proposto, especialmente que nosso método sem treinamento é comparável até mesmo a modelos de interpolação treinados suportados por grandes recursos computacionais e conjuntos de dados em larga escala.
English
Video generation has made remarkable progress in recent years, especially
since the advent of the video diffusion models. Many video generation models
can produce plausible synthetic videos, e.g., Stable Video Diffusion (SVD).
However, most video models can only generate low frame rate videos due to the
limited GPU memory as well as the difficulty of modeling a large set of frames.
The training videos are always uniformly sampled at a specified interval for
temporal compression. Previous methods promote the frame rate by either
training a video interpolation model in pixel space as a postprocessing stage
or training an interpolation model in latent space for a specific base video
model. In this paper, we propose a training-free video interpolation method for
generative video diffusion models, which is generalizable to different models
in a plug-and-play manner. We investigate the non-linearity in the feature
space of video diffusion models and transform a video model into a
self-cascaded video diffusion model with incorporating the designed hidden
state correction modules. The self-cascaded architecture and the correction
module are proposed to retain the temporal consistency between key frames and
the interpolated frames. Extensive evaluations are preformed on multiple
popular video models to demonstrate the effectiveness of the propose method,
especially that our training-free method is even comparable to trained
interpolation models supported by huge compute resources and large-scale
datasets.