VideoLCM: Modelo de Consistência Latente para Vídeo
VideoLCM: Video Latent Consistency Model
December 14, 2023
Autores: Xiang Wang, Shiwei Zhang, Han Zhang, Yu Liu, Yingya Zhang, Changxin Gao, Nong Sang
cs.AI
Resumo
Os modelos de consistência têm demonstrado uma capacidade poderosa na geração eficiente de imagens, permitindo a síntese em poucas etapas de amostragem, o que reduz o alto custo computacional dos modelos de difusão. No entanto, o modelo de consistência na geração de vídeos, que é mais desafiador e consome mais recursos, ainda é pouco explorado. Neste relatório, apresentamos o framework VideoLCM para preencher essa lacuna, que aproveita o conceito de modelos de consistência da geração de imagens para sintetizar vídeos de forma eficiente com um número mínimo de etapas, mantendo alta qualidade. O VideoLCM é construído sobre modelos de difusão latente de vídeo existentes e incorpora técnicas de destilação de consistência para treinar o modelo de consistência latente. Os resultados experimentais revelam a eficácia do nosso VideoLCM em termos de eficiência computacional, fidelidade e consistência temporal. Notavelmente, o VideoLCM alcança uma síntese de vídeo de alta fidelidade e suavidade com apenas quatro etapas de amostragem, mostrando o potencial para síntese em tempo real. Esperamos que o VideoLCM possa servir como uma linha de base simples, porém eficaz, para pesquisas subsequentes. O código-fonte e os modelos estarão publicamente disponíveis.
English
Consistency models have demonstrated powerful capability in efficient image
generation and allowed synthesis within a few sampling steps, alleviating the
high computational cost in diffusion models. However, the consistency model in
the more challenging and resource-consuming video generation is still less
explored. In this report, we present the VideoLCM framework to fill this gap,
which leverages the concept of consistency models from image generation to
efficiently synthesize videos with minimal steps while maintaining high
quality. VideoLCM builds upon existing latent video diffusion models and
incorporates consistency distillation techniques for training the latent
consistency model. Experimental results reveal the effectiveness of our
VideoLCM in terms of computational efficiency, fidelity and temporal
consistency. Notably, VideoLCM achieves high-fidelity and smooth video
synthesis with only four sampling steps, showcasing the potential for real-time
synthesis. We hope that VideoLCM can serve as a simple yet effective baseline
for subsequent research. The source code and models will be publicly available.