AnimateLCM: Accelerare l'Animazione di Modelli di Diffusione Personalizzati e Adattatori con Apprendimento della Coerenza Disaccoppiato

Abstract

I modelli di diffusione video stanno attirando un'attenzione crescente per la loro capacità di produrre video coerenti e di alta fedeltà. Tuttavia, il processo iterativo di rimozione del rumore li rende computazionalmente intensivi e lunghi, limitandone le applicazioni. Ispirati dal Modello di Consistenza (CM) che distilla modelli di diffusione di immagini pre-addestrati per accelerare il campionamento con un numero minimo di passaggi e dalla sua estensione di successo, il Modello di Consistenza Latente (LCM) nella generazione condizionata di immagini, proponiamo AnimateLCM, che consente la generazione di video ad alta fedeltà con un numero minimo di passaggi. Invece di condurre direttamente l'apprendimento della consistenza sul dataset video grezzo, proponiamo una strategia di apprendimento della consistenza disaccoppiata che separa la distillazione delle conoscenze pregresse sulla generazione di immagini e sulla generazione del movimento, migliorando l'efficienza dell'addestramento e la qualità visiva della generazione. Inoltre, per consentire l'integrazione di adattatori plug-and-play nella comunità di diffusione stabile per ottenere varie funzionalità (ad esempio, ControlNet per la generazione controllabile), proponiamo una strategia efficiente per adattare gli adattatori esistenti al nostro modello di consistenza video condizionato al testo distillato o per addestrare adattatori da zero senza compromettere la velocità di campionamento. Validiamo la strategia proposta nella generazione di video condizionata all'immagine e nella generazione di video condizionata al layout, ottenendo risultati di primo livello. I risultati sperimentali convalidano l'efficacia del nostro metodo. Codice e pesi saranno resi pubblici. Ulteriori dettagli sono disponibili su https://github.com/G-U-N/AnimateLCM.

English

Video diffusion models has been gaining increasing attention for its ability to produce videos that are both coherent and of high fidelity. However, the iterative denoising process makes it computationally intensive and time-consuming, thus limiting its applications. Inspired by the Consistency Model (CM) that distills pretrained image diffusion models to accelerate the sampling with minimal steps and its successful extension Latent Consistency Model (LCM) on conditional image generation, we propose AnimateLCM, allowing for high-fidelity video generation within minimal steps. Instead of directly conducting consistency learning on the raw video dataset, we propose a decoupled consistency learning strategy that decouples the distillation of image generation priors and motion generation priors, which improves the training efficiency and enhance the generation visual quality. Additionally, to enable the combination of plug-and-play adapters in stable diffusion community to achieve various functions (e.g., ControlNet for controllable generation). we propose an efficient strategy to adapt existing adapters to our distilled text-conditioned video consistency model or train adapters from scratch without harming the sampling speed. We validate the proposed strategy in image-conditioned video generation and layout-conditioned video generation, all achieving top-performing results. Experimental results validate the effectiveness of our proposed method. Code and weights will be made public. More details are available at https://github.com/G-U-N/AnimateLCM.

AnimateLCM: Accelerare l'Animazione di Modelli di Diffusione Personalizzati e Adattatori con Apprendimento della Coerenza Disaccoppiato

AnimateLCM: Accelerating the Animation of Personalized Diffusion Models and Adapters with Decoupled Consistency Learning

Abstract

Support