VideoLCM: Video Latent Consistentiemodel
VideoLCM: Video Latent Consistency Model
December 14, 2023
Auteurs: Xiang Wang, Shiwei Zhang, Han Zhang, Yu Liu, Yingya Zhang, Changxin Gao, Nong Sang
cs.AI
Samenvatting
Consistentiemodellen hebben een krachtig vermogen getoond in efficiënte beeldgeneratie en maken synthese mogelijk binnen een beperkt aantal samplingstappen, waardoor de hoge rekenkosten in diffusiemodellen worden verlicht. Het consistentiemodel in de uitdagendere en resource-intensievere videogeneratie is echter nog weinig onderzocht. In dit rapport presenteren we het VideoLCM-framework om deze leemte te vullen, dat het concept van consistentiemodellen uit beeldgeneratie benut om efficiënt video's te synthetiseren met minimale stappen, terwijl een hoge kwaliteit behouden blijft. VideoLCM bouwt voort op bestaande latente videodiffusiemodellen en integreert consistentiedistillatietechnieken voor het trainen van het latente consistentiemodel. Experimentele resultaten tonen de effectiviteit van VideoLCM aan op het gebied van rekenkundige efficiëntie, geloofwaardigheid en temporele consistentie. Opmerkelijk is dat VideoLCM hoogwaardige en vloeiende videosynthese bereikt met slechts vier samplingstappen, wat het potentieel voor real-time synthese aantoont. We hopen dat VideoLCM kan dienen als een eenvoudige maar effectieve basis voor vervolgonderzoek. De broncode en modellen zullen publiekelijk beschikbaar worden gesteld.
English
Consistency models have demonstrated powerful capability in efficient image
generation and allowed synthesis within a few sampling steps, alleviating the
high computational cost in diffusion models. However, the consistency model in
the more challenging and resource-consuming video generation is still less
explored. In this report, we present the VideoLCM framework to fill this gap,
which leverages the concept of consistency models from image generation to
efficiently synthesize videos with minimal steps while maintaining high
quality. VideoLCM builds upon existing latent video diffusion models and
incorporates consistency distillation techniques for training the latent
consistency model. Experimental results reveal the effectiveness of our
VideoLCM in terms of computational efficiency, fidelity and temporal
consistency. Notably, VideoLCM achieves high-fidelity and smooth video
synthesis with only four sampling steps, showcasing the potential for real-time
synthesis. We hope that VideoLCM can serve as a simple yet effective baseline
for subsequent research. The source code and models will be publicly available.