AnimateLCM : Accélération de l'animation des modèles de diffusion personnalisés et des adaptateurs grâce à l'apprentissage de cohérence découplé

Résumé

Les modèles de diffusion vidéo ont suscité un intérêt croissant pour leur capacité à produire des vidéos à la fois cohérentes et de haute fidélité. Cependant, le processus itératif de débruitage les rend intensifs en calcul et chronophages, limitant ainsi leurs applications. Inspirés par le modèle de cohérence (Consistency Model, CM) qui distille des modèles de diffusion d'images pré-entraînés pour accélérer l'échantillonnage avec un nombre minimal d'étapes, ainsi que par son extension réussie, le modèle de cohérence latente (Latent Consistency Model, LCM) pour la génération d'images conditionnelles, nous proposons AnimateLCM, permettant une génération vidéo de haute fidélité en un nombre minimal d'étapes. Au lieu de mener directement un apprentissage de cohérence sur un ensemble de données vidéo brutes, nous proposons une stratégie d'apprentissage de cohérence découplée qui dissocie la distillation des connaissances préalables en génération d'images et en génération de mouvement, améliorant ainsi l'efficacité de l'entraînement et la qualité visuelle de la génération. De plus, pour permettre l'intégration d'adaptateurs plug-and-play de la communauté Stable Diffusion afin d'atteindre diverses fonctionnalités (par exemple, ControlNet pour une génération contrôlée), nous proposons une stratégie efficace pour adapter les adaptateurs existants à notre modèle de cohérence vidéo conditionné par le texte distillé, ou pour entraîner des adaptateurs à partir de zéro sans compromettre la vitesse d'échantillonnage. Nous validons la stratégie proposée dans la génération vidéo conditionnée par des images et la génération vidéo conditionnée par des mises en page, obtenant des résultats parmi les meilleurs. Les résultats expérimentaux confirment l'efficacité de notre méthode. Le code et les poids seront rendus publics. Plus de détails sont disponibles à l'adresse https://github.com/G-U-N/AnimateLCM.

English

Video diffusion models has been gaining increasing attention for its ability to produce videos that are both coherent and of high fidelity. However, the iterative denoising process makes it computationally intensive and time-consuming, thus limiting its applications. Inspired by the Consistency Model (CM) that distills pretrained image diffusion models to accelerate the sampling with minimal steps and its successful extension Latent Consistency Model (LCM) on conditional image generation, we propose AnimateLCM, allowing for high-fidelity video generation within minimal steps. Instead of directly conducting consistency learning on the raw video dataset, we propose a decoupled consistency learning strategy that decouples the distillation of image generation priors and motion generation priors, which improves the training efficiency and enhance the generation visual quality. Additionally, to enable the combination of plug-and-play adapters in stable diffusion community to achieve various functions (e.g., ControlNet for controllable generation). we propose an efficient strategy to adapt existing adapters to our distilled text-conditioned video consistency model or train adapters from scratch without harming the sampling speed. We validate the proposed strategy in image-conditioned video generation and layout-conditioned video generation, all achieving top-performing results. Experimental results validate the effectiveness of our proposed method. Code and weights will be made public. More details are available at https://github.com/G-U-N/AnimateLCM.

AnimateLCM : Accélération de l'animation des modèles de diffusion personnalisés et des adaptateurs grâce à l'apprentissage de cohérence découplé

AnimateLCM: Accelerating the Animation of Personalized Diffusion Models and Adapters with Decoupled Consistency Learning

Résumé

Support