VideoLCM: Modello di Consistenza Latente per Video
VideoLCM: Video Latent Consistency Model
December 14, 2023
Autori: Xiang Wang, Shiwei Zhang, Han Zhang, Yu Liu, Yingya Zhang, Changxin Gao, Nong Sang
cs.AI
Abstract
I modelli di consistenza hanno dimostrato una potente capacità nella generazione efficiente di immagini e hanno permesso la sintesi in pochi passaggi di campionamento, riducendo l'elevato costo computazionale nei modelli di diffusione. Tuttavia, il modello di consistenza nella generazione di video, un ambito più impegnativo e dispendioso in termini di risorse, è ancora poco esplorato. In questo rapporto, presentiamo il framework VideoLCM per colmare questa lacuna, che sfrutta il concetto di modelli di consistenza dalla generazione di immagini per sintetizzare in modo efficiente video con un numero minimo di passaggi, mantenendo un'elevata qualità. VideoLCM si basa su modelli di diffusione latente per video esistenti e incorpora tecniche di distillazione della consistenza per l'addestramento del modello di consistenza latente. I risultati sperimentali rivelano l'efficacia di VideoLCM in termini di efficienza computazionale, fedeltà e coerenza temporale. In particolare, VideoLCM raggiunge una sintesi video ad alta fedeltà e fluida con soli quattro passaggi di campionamento, dimostrando il potenziale per la sintesi in tempo reale. Speriamo che VideoLCM possa servire come una baseline semplice ma efficace per le ricerche successive. Il codice sorgente e i modelli saranno resi pubblicamente disponibili.
English
Consistency models have demonstrated powerful capability in efficient image
generation and allowed synthesis within a few sampling steps, alleviating the
high computational cost in diffusion models. However, the consistency model in
the more challenging and resource-consuming video generation is still less
explored. In this report, we present the VideoLCM framework to fill this gap,
which leverages the concept of consistency models from image generation to
efficiently synthesize videos with minimal steps while maintaining high
quality. VideoLCM builds upon existing latent video diffusion models and
incorporates consistency distillation techniques for training the latent
consistency model. Experimental results reveal the effectiveness of our
VideoLCM in terms of computational efficiency, fidelity and temporal
consistency. Notably, VideoLCM achieves high-fidelity and smooth video
synthesis with only four sampling steps, showcasing the potential for real-time
synthesis. We hope that VideoLCM can serve as a simple yet effective baseline
for subsequent research. The source code and models will be publicly available.