ChatPaper.aiChatPaper

VideoLCM : Modèle de Cohérence Latente pour la Vidéo

VideoLCM: Video Latent Consistency Model

December 14, 2023
Auteurs: Xiang Wang, Shiwei Zhang, Han Zhang, Yu Liu, Yingya Zhang, Changxin Gao, Nong Sang
cs.AI

Résumé

Les modèles de cohérence ont démontré une puissante capacité dans la génération efficace d'images et ont permis la synthèse en quelques étapes d'échantillonnage, réduisant ainsi le coût computationnel élevé des modèles de diffusion. Cependant, l'application des modèles de cohérence à la génération de vidéos, un domaine plus complexe et gourmand en ressources, reste encore peu explorée. Dans ce rapport, nous présentons le cadre VideoLCM pour combler cette lacune, qui exploite le concept des modèles de cohérence issus de la génération d'images pour synthétiser efficacement des vidéos avec un nombre minimal d'étapes tout en maintenant une haute qualité. VideoLCM s'appuie sur les modèles de diffusion latente vidéo existants et intègre des techniques de distillation de cohérence pour entraîner le modèle de cohérence latente. Les résultats expérimentaux révèlent l'efficacité de notre VideoLCM en termes d'efficacité computationnelle, de fidélité et de cohérence temporelle. Notamment, VideoLCM réalise une synthèse vidéo de haute fidélité et fluide avec seulement quatre étapes d'échantillonnage, démontrant ainsi son potentiel pour la synthèse en temps réel. Nous espérons que VideoLCM pourra servir de base simple mais efficace pour les recherches ultérieures. Le code source et les modèles seront rendus publics.
English
Consistency models have demonstrated powerful capability in efficient image generation and allowed synthesis within a few sampling steps, alleviating the high computational cost in diffusion models. However, the consistency model in the more challenging and resource-consuming video generation is still less explored. In this report, we present the VideoLCM framework to fill this gap, which leverages the concept of consistency models from image generation to efficiently synthesize videos with minimal steps while maintaining high quality. VideoLCM builds upon existing latent video diffusion models and incorporates consistency distillation techniques for training the latent consistency model. Experimental results reveal the effectiveness of our VideoLCM in terms of computational efficiency, fidelity and temporal consistency. Notably, VideoLCM achieves high-fidelity and smooth video synthesis with only four sampling steps, showcasing the potential for real-time synthesis. We hope that VideoLCM can serve as a simple yet effective baseline for subsequent research. The source code and models will be publicly available.
PDF252December 15, 2024