ChatPaper.aiChatPaper

AnimateLCM: Versnelling van de Animatie van Gepersonaliseerde Diffusiemodellen en Adapters met Ontkoppeld Consistentie Leren

AnimateLCM: Accelerating the Animation of Personalized Diffusion Models and Adapters with Decoupled Consistency Learning

February 1, 2024
Auteurs: Fu-Yun Wang, Zhaoyang Huang, Xiaoyu Shi, Weikang Bian, Guanglu Song, Yu Liu, Hongsheng Li
cs.AI

Samenvatting

Video-diffusiemodellen krijgen steeds meer aandacht vanwege hun vermogen om video's te produceren die zowel coherent als van hoge kwaliteit zijn. Het iteratieve denoisingsproces maakt het echter rekenintensief en tijdrovend, wat de toepassingsmogelijkheden beperkt. Geïnspireerd door het Consistency Model (CM) dat voorgetrainde beelddiffusiemodellen destilleert om de sampling te versnellen met minimale stappen, en de succesvolle uitbreiding Latent Consistency Model (LCM) voor conditionele beeldgeneratie, stellen wij AnimateLCM voor, waarmee hoogwaardige videogeneratie mogelijk is in minimale stappen. In plaats van direct consistentieleren toe te passen op de ruwe videodataset, stellen wij een ontkoppelde consistentieleerstrategie voor die de destillatie van beeldgeneratieprioriteiten en beweginggeneratieprioriteiten ontkoppelt, wat de trainings efficiëntie verbetert en de visuele kwaliteit van de generatie verhoogt. Daarnaast stellen wij, om de combinatie van plug-and-play adapters in de stable diffusion-community mogelijk te maken om verschillende functies te bereiken (bijvoorbeeld ControlNet voor controleerbare generatie), een efficiënte strategie voor om bestaande adapters aan te passen aan ons gedestilleerde tekst-geconditioneerde videoconsistentiemodel of adapters vanaf nul te trainen zonder de sampling snelheid te schaden. Wij valideren de voorgestelde strategie in beeld-geconditioneerde videogeneratie en lay-out-geconditioneerde videogeneratie, waarbij allemaal topprestaties worden behaald. Experimentele resultaten valideren de effectiviteit van onze voorgestelde methode. Code en gewichten zullen openbaar worden gemaakt. Meer details zijn beschikbaar op https://github.com/G-U-N/AnimateLCM.
English
Video diffusion models has been gaining increasing attention for its ability to produce videos that are both coherent and of high fidelity. However, the iterative denoising process makes it computationally intensive and time-consuming, thus limiting its applications. Inspired by the Consistency Model (CM) that distills pretrained image diffusion models to accelerate the sampling with minimal steps and its successful extension Latent Consistency Model (LCM) on conditional image generation, we propose AnimateLCM, allowing for high-fidelity video generation within minimal steps. Instead of directly conducting consistency learning on the raw video dataset, we propose a decoupled consistency learning strategy that decouples the distillation of image generation priors and motion generation priors, which improves the training efficiency and enhance the generation visual quality. Additionally, to enable the combination of plug-and-play adapters in stable diffusion community to achieve various functions (e.g., ControlNet for controllable generation). we propose an efficient strategy to adapt existing adapters to our distilled text-conditioned video consistency model or train adapters from scratch without harming the sampling speed. We validate the proposed strategy in image-conditioned video generation and layout-conditioned video generation, all achieving top-performing results. Experimental results validate the effectiveness of our proposed method. Code and weights will be made public. More details are available at https://github.com/G-U-N/AnimateLCM.
PDF224February 8, 2026