AnimateLCM: Versnelling van de Animatie van Gepersonaliseerde Diffusiemodellen en Adapters met Ontkoppeld Consistentie Leren
AnimateLCM: Accelerating the Animation of Personalized Diffusion Models and Adapters with Decoupled Consistency Learning
February 1, 2024
Auteurs: Fu-Yun Wang, Zhaoyang Huang, Xiaoyu Shi, Weikang Bian, Guanglu Song, Yu Liu, Hongsheng Li
cs.AI
Samenvatting
Video-diffusiemodellen krijgen steeds meer aandacht vanwege hun vermogen om video's te produceren die zowel coherent als van hoge kwaliteit zijn. Het iteratieve denoisingsproces maakt het echter rekenintensief en tijdrovend, wat de toepassingsmogelijkheden beperkt. Geïnspireerd door het Consistency Model (CM) dat voorgetrainde beelddiffusiemodellen destilleert om de sampling te versnellen met minimale stappen, en de succesvolle uitbreiding Latent Consistency Model (LCM) voor conditionele beeldgeneratie, stellen wij AnimateLCM voor, waarmee hoogwaardige videogeneratie mogelijk is in minimale stappen. In plaats van direct consistentieleren toe te passen op de ruwe videodataset, stellen wij een ontkoppelde consistentieleerstrategie voor die de destillatie van beeldgeneratieprioriteiten en beweginggeneratieprioriteiten ontkoppelt, wat de trainings efficiëntie verbetert en de visuele kwaliteit van de generatie verhoogt. Daarnaast stellen wij, om de combinatie van plug-and-play adapters in de stable diffusion-community mogelijk te maken om verschillende functies te bereiken (bijvoorbeeld ControlNet voor controleerbare generatie), een efficiënte strategie voor om bestaande adapters aan te passen aan ons gedestilleerde tekst-geconditioneerde videoconsistentiemodel of adapters vanaf nul te trainen zonder de sampling snelheid te schaden. Wij valideren de voorgestelde strategie in beeld-geconditioneerde videogeneratie en lay-out-geconditioneerde videogeneratie, waarbij allemaal topprestaties worden behaald. Experimentele resultaten valideren de effectiviteit van onze voorgestelde methode. Code en gewichten zullen openbaar worden gemaakt. Meer details zijn beschikbaar op https://github.com/G-U-N/AnimateLCM.
English
Video diffusion models has been gaining increasing attention for its ability
to produce videos that are both coherent and of high fidelity. However, the
iterative denoising process makes it computationally intensive and
time-consuming, thus limiting its applications. Inspired by the Consistency
Model (CM) that distills pretrained image diffusion models to accelerate the
sampling with minimal steps and its successful extension Latent Consistency
Model (LCM) on conditional image generation, we propose AnimateLCM, allowing
for high-fidelity video generation within minimal steps. Instead of directly
conducting consistency learning on the raw video dataset, we propose a
decoupled consistency learning strategy that decouples the distillation of
image generation priors and motion generation priors, which improves the
training efficiency and enhance the generation visual quality. Additionally, to
enable the combination of plug-and-play adapters in stable diffusion community
to achieve various functions (e.g., ControlNet for controllable generation). we
propose an efficient strategy to adapt existing adapters to our distilled
text-conditioned video consistency model or train adapters from scratch without
harming the sampling speed. We validate the proposed strategy in
image-conditioned video generation and layout-conditioned video generation, all
achieving top-performing results. Experimental results validate the
effectiveness of our proposed method. Code and weights will be made public.
More details are available at https://github.com/G-U-N/AnimateLCM.