VideoLCM: Video Latent Consistentiemodel

Samenvatting

Consistentiemodellen hebben een krachtig vermogen getoond in efficiënte beeldgeneratie en maken synthese mogelijk binnen een beperkt aantal samplingstappen, waardoor de hoge rekenkosten in diffusiemodellen worden verlicht. Het consistentiemodel in de uitdagendere en resource-intensievere videogeneratie is echter nog weinig onderzocht. In dit rapport presenteren we het VideoLCM-framework om deze leemte te vullen, dat het concept van consistentiemodellen uit beeldgeneratie benut om efficiënt video's te synthetiseren met minimale stappen, terwijl een hoge kwaliteit behouden blijft. VideoLCM bouwt voort op bestaande latente videodiffusiemodellen en integreert consistentiedistillatietechnieken voor het trainen van het latente consistentiemodel. Experimentele resultaten tonen de effectiviteit van VideoLCM aan op het gebied van rekenkundige efficiëntie, geloofwaardigheid en temporele consistentie. Opmerkelijk is dat VideoLCM hoogwaardige en vloeiende videosynthese bereikt met slechts vier samplingstappen, wat het potentieel voor real-time synthese aantoont. We hopen dat VideoLCM kan dienen als een eenvoudige maar effectieve basis voor vervolgonderzoek. De broncode en modellen zullen publiekelijk beschikbaar worden gesteld.

English

Consistency models have demonstrated powerful capability in efficient image generation and allowed synthesis within a few sampling steps, alleviating the high computational cost in diffusion models. However, the consistency model in the more challenging and resource-consuming video generation is still less explored. In this report, we present the VideoLCM framework to fill this gap, which leverages the concept of consistency models from image generation to efficiently synthesize videos with minimal steps while maintaining high quality. VideoLCM builds upon existing latent video diffusion models and incorporates consistency distillation techniques for training the latent consistency model. Experimental results reveal the effectiveness of our VideoLCM in terms of computational efficiency, fidelity and temporal consistency. Notably, VideoLCM achieves high-fidelity and smooth video synthesis with only four sampling steps, showcasing the potential for real-time synthesis. We hope that VideoLCM can serve as a simple yet effective baseline for subsequent research. The source code and models will be publicly available.

VideoLCM: Video Latent Consistentiemodel

VideoLCM: Video Latent Consistency Model

Samenvatting

Support