VideoLCM: Modelo de Consistencia Latente para Vídeo
VideoLCM: Video Latent Consistency Model
December 14, 2023
Autores: Xiang Wang, Shiwei Zhang, Han Zhang, Yu Liu, Yingya Zhang, Changxin Gao, Nong Sang
cs.AI
Resumen
Los modelos de consistencia han demostrado una capacidad poderosa en la generación eficiente de imágenes y han permitido la síntesis en pocos pasos de muestreo, reduciendo el alto costo computacional en los modelos de difusión. Sin embargo, el modelo de consistencia en la generación de videos, un desafío más complejo y con mayor consumo de recursos, aún ha sido poco explorado. En este informe, presentamos el marco VideoLCM para llenar este vacío, el cual aprovecha el concepto de modelos de consistencia de la generación de imágenes para sintetizar videos de manera eficiente con un número mínimo de pasos, manteniendo una alta calidad. VideoLCM se basa en modelos de difusión latente de video existentes e incorpora técnicas de destilación de consistencia para entrenar el modelo de consistencia latente. Los resultados experimentales revelan la efectividad de VideoLCM en términos de eficiencia computacional, fidelidad y consistencia temporal. Destacablemente, VideoLCM logra una síntesis de videos de alta fidelidad y fluidez con solo cuatro pasos de muestreo, mostrando el potencial para la síntesis en tiempo real. Esperamos que VideoLCM pueda servir como una base simple pero efectiva para investigaciones posteriores. El código fuente y los modelos estarán disponibles públicamente.
English
Consistency models have demonstrated powerful capability in efficient image
generation and allowed synthesis within a few sampling steps, alleviating the
high computational cost in diffusion models. However, the consistency model in
the more challenging and resource-consuming video generation is still less
explored. In this report, we present the VideoLCM framework to fill this gap,
which leverages the concept of consistency models from image generation to
efficiently synthesize videos with minimal steps while maintaining high
quality. VideoLCM builds upon existing latent video diffusion models and
incorporates consistency distillation techniques for training the latent
consistency model. Experimental results reveal the effectiveness of our
VideoLCM in terms of computational efficiency, fidelity and temporal
consistency. Notably, VideoLCM achieves high-fidelity and smooth video
synthesis with only four sampling steps, showcasing the potential for real-time
synthesis. We hope that VideoLCM can serve as a simple yet effective baseline
for subsequent research. The source code and models will be publicly available.