VideoLCM: Video-Latent-Konsistenzmodell
VideoLCM: Video Latent Consistency Model
December 14, 2023
Autoren: Xiang Wang, Shiwei Zhang, Han Zhang, Yu Liu, Yingya Zhang, Changxin Gao, Nong Sang
cs.AI
Zusammenfassung
Konsistenzmodelle haben ihre leistungsstarke Fähigkeit bei der effizienten Bildgenerierung unter Beweis gestellt und ermöglichen die Synthese in nur wenigen Sampling-Schritten, wodurch die hohen Rechenkosten von Diffusionsmodellen reduziert werden. Allerdings ist das Konsistenzmodell in der anspruchsvolleren und ressourcenintensiveren Videogenerierung noch wenig erforscht. In diesem Bericht stellen wir das VideoLCM-Framework vor, um diese Lücke zu schließen. Es nutzt das Konzept der Konsistenzmodelle aus der Bildgenerierung, um Videos mit minimalen Schritten effizient zu synthetisieren und dabei eine hohe Qualität zu bewahren. VideoLCM baut auf bestehenden latenten Video-Diffusionsmodellen auf und integriert Konsistenz-Distillationstechniken für das Training des latenten Konsistenzmodells. Experimentelle Ergebnisse zeigen die Effektivität von VideoLCM in Bezug auf Recheneffizienz, Bildtreue und zeitliche Konsistenz. Bemerkenswerterweise erreicht VideoLCM eine hochwertige und flüssige Videosynthese mit nur vier Sampling-Schritten, was das Potenzial für Echtzeitsynthese verdeutlicht. Wir hoffen, dass VideoLCM als einfache, aber effektive Basis für nachfolgende Forschung dienen kann. Der Quellcode und die Modelle werden öffentlich zugänglich sein.
English
Consistency models have demonstrated powerful capability in efficient image
generation and allowed synthesis within a few sampling steps, alleviating the
high computational cost in diffusion models. However, the consistency model in
the more challenging and resource-consuming video generation is still less
explored. In this report, we present the VideoLCM framework to fill this gap,
which leverages the concept of consistency models from image generation to
efficiently synthesize videos with minimal steps while maintaining high
quality. VideoLCM builds upon existing latent video diffusion models and
incorporates consistency distillation techniques for training the latent
consistency model. Experimental results reveal the effectiveness of our
VideoLCM in terms of computational efficiency, fidelity and temporal
consistency. Notably, VideoLCM achieves high-fidelity and smooth video
synthesis with only four sampling steps, showcasing the potential for real-time
synthesis. We hope that VideoLCM can serve as a simple yet effective baseline
for subsequent research. The source code and models will be publicly available.