AnimateLCM: Acelerando a Animação de Modelos de Difusão Personalizados e Adaptadores com Aprendizado de Consistência Desacoplado

Resumo

Os modelos de difusão de vídeo têm ganhado crescente atenção por sua capacidade de produzir vídeos que são tanto coerentes quanto de alta fidelidade. No entanto, o processo iterativo de remoção de ruído torna-o computacionalmente intensivo e demorado, limitando assim suas aplicações. Inspirados pelo Modelo de Consistência (CM), que destila modelos de difusão de imagens pré-treinados para acelerar a amostragem com um número mínimo de passos, e sua extensão bem-sucedida, o Modelo de Consistência Latente (LCM) na geração condicional de imagens, propomos o AnimateLCM, permitindo a geração de vídeos de alta fidelidade com um número mínimo de passos. Em vez de realizar diretamente o aprendizado de consistência no conjunto de dados de vídeo bruto, propomos uma estratégia de aprendizado de consistência desacoplada que separa a destilação de prioridades de geração de imagens e prioridades de geração de movimento, o que melhora a eficiência do treinamento e aumenta a qualidade visual da geração. Além disso, para permitir a combinação de adaptadores plug-and-play na comunidade de difusão estável para alcançar várias funções (por exemplo, ControlNet para geração controlável), propomos uma estratégia eficiente para adaptar adaptadores existentes ao nosso modelo de consistência de vídeo condicionado por texto destilado ou treinar adaptadores do zero sem prejudicar a velocidade de amostragem. Validamos a estratégia proposta na geração de vídeos condicionados por imagem e na geração de vídeos condicionados por layout, todos alcançando resultados de alto desempenho. Os resultados experimentais validam a eficácia do nosso método proposto. O código e os pesos serão disponibilizados publicamente. Mais detalhes estão disponíveis em https://github.com/G-U-N/AnimateLCM.

English

Video diffusion models has been gaining increasing attention for its ability to produce videos that are both coherent and of high fidelity. However, the iterative denoising process makes it computationally intensive and time-consuming, thus limiting its applications. Inspired by the Consistency Model (CM) that distills pretrained image diffusion models to accelerate the sampling with minimal steps and its successful extension Latent Consistency Model (LCM) on conditional image generation, we propose AnimateLCM, allowing for high-fidelity video generation within minimal steps. Instead of directly conducting consistency learning on the raw video dataset, we propose a decoupled consistency learning strategy that decouples the distillation of image generation priors and motion generation priors, which improves the training efficiency and enhance the generation visual quality. Additionally, to enable the combination of plug-and-play adapters in stable diffusion community to achieve various functions (e.g., ControlNet for controllable generation). we propose an efficient strategy to adapt existing adapters to our distilled text-conditioned video consistency model or train adapters from scratch without harming the sampling speed. We validate the proposed strategy in image-conditioned video generation and layout-conditioned video generation, all achieving top-performing results. Experimental results validate the effectiveness of our proposed method. Code and weights will be made public. More details are available at https://github.com/G-U-N/AnimateLCM.

AnimateLCM: Acelerando a Animação de Modelos de Difusão Personalizados e Adaptadores com Aprendizado de Consistência Desacoplado

AnimateLCM: Accelerating the Animation of Personalized Diffusion Models and Adapters with Decoupled Consistency Learning

Resumo

Support