ChatPaper.aiChatPaper

VideoLCM: Video-Latent-Konsistenzmodell

VideoLCM: Video Latent Consistency Model

December 14, 2023
Autoren: Xiang Wang, Shiwei Zhang, Han Zhang, Yu Liu, Yingya Zhang, Changxin Gao, Nong Sang
cs.AI

Zusammenfassung

Konsistenzmodelle haben ihre leistungsstarke Fähigkeit bei der effizienten Bildgenerierung unter Beweis gestellt und ermöglichen die Synthese in nur wenigen Sampling-Schritten, wodurch die hohen Rechenkosten von Diffusionsmodellen reduziert werden. Allerdings ist das Konsistenzmodell in der anspruchsvolleren und ressourcenintensiveren Videogenerierung noch wenig erforscht. In diesem Bericht stellen wir das VideoLCM-Framework vor, um diese Lücke zu schließen. Es nutzt das Konzept der Konsistenzmodelle aus der Bildgenerierung, um Videos mit minimalen Schritten effizient zu synthetisieren und dabei eine hohe Qualität zu bewahren. VideoLCM baut auf bestehenden latenten Video-Diffusionsmodellen auf und integriert Konsistenz-Distillationstechniken für das Training des latenten Konsistenzmodells. Experimentelle Ergebnisse zeigen die Effektivität von VideoLCM in Bezug auf Recheneffizienz, Bildtreue und zeitliche Konsistenz. Bemerkenswerterweise erreicht VideoLCM eine hochwertige und flüssige Videosynthese mit nur vier Sampling-Schritten, was das Potenzial für Echtzeitsynthese verdeutlicht. Wir hoffen, dass VideoLCM als einfache, aber effektive Basis für nachfolgende Forschung dienen kann. Der Quellcode und die Modelle werden öffentlich zugänglich sein.
English
Consistency models have demonstrated powerful capability in efficient image generation and allowed synthesis within a few sampling steps, alleviating the high computational cost in diffusion models. However, the consistency model in the more challenging and resource-consuming video generation is still less explored. In this report, we present the VideoLCM framework to fill this gap, which leverages the concept of consistency models from image generation to efficiently synthesize videos with minimal steps while maintaining high quality. VideoLCM builds upon existing latent video diffusion models and incorporates consistency distillation techniques for training the latent consistency model. Experimental results reveal the effectiveness of our VideoLCM in terms of computational efficiency, fidelity and temporal consistency. Notably, VideoLCM achieves high-fidelity and smooth video synthesis with only four sampling steps, showcasing the potential for real-time synthesis. We hope that VideoLCM can serve as a simple yet effective baseline for subsequent research. The source code and models will be publicly available.
PDF252December 15, 2024