AnimateLCM: Beschleunigung der Animation personalisierter Diffusionsmodelle und Adapter durch entkoppeltes Konsistenzlernen
AnimateLCM: Accelerating the Animation of Personalized Diffusion Models and Adapters with Decoupled Consistency Learning
February 1, 2024
Autoren: Fu-Yun Wang, Zhaoyang Huang, Xiaoyu Shi, Weikang Bian, Guanglu Song, Yu Liu, Hongsheng Li
cs.AI
Zusammenfassung
Video-Diffusionsmodelle haben zunehmend Aufmerksamkeit erregt, da sie in der Lage sind, sowohl kohärente als auch hochwertige Videos zu erzeugen. Der iterative Entrauschungsprozess macht sie jedoch rechenintensiv und zeitaufwendig, was ihre Anwendungsmöglichkeiten einschränkt. Inspiriert vom Consistency Model (CM), das vortrainierte Bild-Diffusionsmodelle destilliert, um das Sampling mit minimalen Schritten zu beschleunigen, und dessen erfolgreicher Erweiterung, dem Latent Consistency Model (LCM) für die bedingte Bildgenerierung, schlagen wir AnimateLCM vor, das eine hochwertige Videogenerierung in minimalen Schritten ermöglicht. Anstatt direkt Konsistenzlernen auf dem Rohvideodatensatz durchzuführen, schlagen wir eine entkoppelte Konsistenzlernstrategie vor, die die Destillation von Bildgenerierungs-Priors und Bewegungsgenerierungs-Priors entkoppelt, was die Trainings effizienz verbessert und die visuelle Qualität der Generierung steigert. Zusätzlich schlagen wir eine effiziente Strategie vor, um bestehende Plug-and-Play-Adapter aus der Stable-Diffusion-Community (z. B. ControlNet für kontrollierbare Generierung) an unser destilliertes textbedingtes Video-Consistency-Modell anzupassen oder Adapter von Grund auf zu trainieren, ohne die Sampling-Geschwindigkeit zu beeinträchtigen. Wir validieren die vorgeschlagene Strategie in der bildbedingten Videogenerierung und der layoutbedingten Videogenerierung, wobei in allen Fällen erstklassige Ergebnisse erzielt werden. Experimentelle Ergebnisse bestätigen die Effektivität unserer Methode. Code und Gewichte werden öffentlich zugänglich gemacht. Weitere Details sind unter https://github.com/G-U-N/AnimateLCM verfügbar.
English
Video diffusion models has been gaining increasing attention for its ability
to produce videos that are both coherent and of high fidelity. However, the
iterative denoising process makes it computationally intensive and
time-consuming, thus limiting its applications. Inspired by the Consistency
Model (CM) that distills pretrained image diffusion models to accelerate the
sampling with minimal steps and its successful extension Latent Consistency
Model (LCM) on conditional image generation, we propose AnimateLCM, allowing
for high-fidelity video generation within minimal steps. Instead of directly
conducting consistency learning on the raw video dataset, we propose a
decoupled consistency learning strategy that decouples the distillation of
image generation priors and motion generation priors, which improves the
training efficiency and enhance the generation visual quality. Additionally, to
enable the combination of plug-and-play adapters in stable diffusion community
to achieve various functions (e.g., ControlNet for controllable generation). we
propose an efficient strategy to adapt existing adapters to our distilled
text-conditioned video consistency model or train adapters from scratch without
harming the sampling speed. We validate the proposed strategy in
image-conditioned video generation and layout-conditioned video generation, all
achieving top-performing results. Experimental results validate the
effectiveness of our proposed method. Code and weights will be made public.
More details are available at https://github.com/G-U-N/AnimateLCM.