VideoLCM: Видеомодель латентной согласованности
VideoLCM: Video Latent Consistency Model
December 14, 2023
Авторы: Xiang Wang, Shiwei Zhang, Han Zhang, Yu Liu, Yingya Zhang, Changxin Gao, Nong Sang
cs.AI
Аннотация
Модели согласованности продемонстрировали мощные возможности в эффективной генерации изображений, позволяя синтезировать их за несколько шагов сэмплирования, что снижает высокие вычислительные затраты в диффузионных моделях. Однако применение моделей согласованности в более сложной и ресурсоемкой задаче генерации видео остается малоизученным. В данном отчете мы представляем фреймворк VideoLCM, который заполняет этот пробел, используя концепцию моделей согласованности из генерации изображений для эффективного синтеза видео с минимальным количеством шагов при сохранении высокого качества. VideoLCM основывается на существующих латентных диффузионных моделях для видео и включает методы согласованной дистилляции для обучения латентной модели согласованности. Экспериментальные результаты демонстрируют эффективность VideoLCM с точки зрения вычислительной эффективности, точности и временной согласованности. Примечательно, что VideoLCM достигает синтеза видео с высокой точностью и плавностью всего за четыре шага сэмплирования, что открывает потенциал для синтеза в реальном времени. Мы надеемся, что VideoLCM сможет стать простым, но эффективным базовым решением для последующих исследований. Исходный код и модели будут общедоступны.
English
Consistency models have demonstrated powerful capability in efficient image
generation and allowed synthesis within a few sampling steps, alleviating the
high computational cost in diffusion models. However, the consistency model in
the more challenging and resource-consuming video generation is still less
explored. In this report, we present the VideoLCM framework to fill this gap,
which leverages the concept of consistency models from image generation to
efficiently synthesize videos with minimal steps while maintaining high
quality. VideoLCM builds upon existing latent video diffusion models and
incorporates consistency distillation techniques for training the latent
consistency model. Experimental results reveal the effectiveness of our
VideoLCM in terms of computational efficiency, fidelity and temporal
consistency. Notably, VideoLCM achieves high-fidelity and smooth video
synthesis with only four sampling steps, showcasing the potential for real-time
synthesis. We hope that VideoLCM can serve as a simple yet effective baseline
for subsequent research. The source code and models will be publicly available.