ChatPaper.aiChatPaper

AnimateLCM: Ускорение анимации персонализированных диффузионных моделей и адаптеров с помощью раздельного обучения согласованности

AnimateLCM: Accelerating the Animation of Personalized Diffusion Models and Adapters with Decoupled Consistency Learning

February 1, 2024
Авторы: Fu-Yun Wang, Zhaoyang Huang, Xiaoyu Shi, Weikang Bian, Guanglu Song, Yu Liu, Hongsheng Li
cs.AI

Аннотация

Видеодиффузионные модели привлекают всё больше внимания благодаря своей способности создавать видео, которые одновременно являются связными и обладают высокой детализацией. Однако итеративный процесс удаления шума делает их вычислительно затратными и медленными, что ограничивает их применение. Вдохновлённые моделью согласованности (Consistency Model, CM), которая дистиллирует предобученные диффузионные модели изображений для ускорения выборки с минимальным количеством шагов, а также её успешным расширением — латентной моделью согласованности (Latent Consistency Model, LCM) для условной генерации изображений, мы предлагаем AnimateLCM, позволяющую генерировать видео высокой детализации за минимальное количество шагов. Вместо прямого применения обучения согласованности на исходном наборе видеоданных мы предлагаем стратегию разделённого обучения согласованности, которая разделяет дистилляцию априорных знаний для генерации изображений и априорных знаний для генерации движения, что повышает эффективность обучения и улучшает визуальное качество генерации. Кроме того, чтобы обеспечить возможность использования подключаемых адаптеров из сообщества Stable Diffusion для реализации различных функций (например, ControlNet для управляемой генерации), мы предлагаем эффективную стратегию адаптации существующих адаптеров к нашей дистиллированной тексто-условной видеомодели согласованности или обучения адаптеров с нуля без ущерба для скорости выборки. Мы проверяем предложенную стратегию на задачах генерации видео на основе изображений и генерации видео на основе макетов, достигая наилучших результатов. Экспериментальные результаты подтверждают эффективность нашего метода. Код и веса модели будут опубликованы. Подробности доступны по ссылке: https://github.com/G-U-N/AnimateLCM.
English
Video diffusion models has been gaining increasing attention for its ability to produce videos that are both coherent and of high fidelity. However, the iterative denoising process makes it computationally intensive and time-consuming, thus limiting its applications. Inspired by the Consistency Model (CM) that distills pretrained image diffusion models to accelerate the sampling with minimal steps and its successful extension Latent Consistency Model (LCM) on conditional image generation, we propose AnimateLCM, allowing for high-fidelity video generation within minimal steps. Instead of directly conducting consistency learning on the raw video dataset, we propose a decoupled consistency learning strategy that decouples the distillation of image generation priors and motion generation priors, which improves the training efficiency and enhance the generation visual quality. Additionally, to enable the combination of plug-and-play adapters in stable diffusion community to achieve various functions (e.g., ControlNet for controllable generation). we propose an efficient strategy to adapt existing adapters to our distilled text-conditioned video consistency model or train adapters from scratch without harming the sampling speed. We validate the proposed strategy in image-conditioned video generation and layout-conditioned video generation, all achieving top-performing results. Experimental results validate the effectiveness of our proposed method. Code and weights will be made public. More details are available at https://github.com/G-U-N/AnimateLCM.
PDF232December 15, 2024