AnimateLCM: 分離された一貫性学習によるパーソナライズド拡散モデルとアダプターのアニメーション加速
AnimateLCM: Accelerating the Animation of Personalized Diffusion Models and Adapters with Decoupled Consistency Learning
February 1, 2024
著者: Fu-Yun Wang, Zhaoyang Huang, Xiaoyu Shi, Weikang Bian, Guanglu Song, Yu Liu, Hongsheng Li
cs.AI
要旨
ビデオ拡散モデルは、一貫性があり高精細な動画を生成する能力から、近年注目を集めています。しかし、反復的なノイズ除去プロセスは計算量が多く時間がかかるため、その応用が制限されています。本研究では、事前学習済みの画像拡散モデルを蒸留して最小限のステップでサンプリングを加速するConsistency Model (CM)と、条件付き画像生成におけるその成功例であるLatent Consistency Model (LCM)に着想を得て、最小ステップで高精細な動画生成を可能にするAnimateLCMを提案します。生のビデオデータセットに対して直接一貫性学習を行うのではなく、画像生成の事前知識と動き生成の事前知識を分離したデカップリング一貫性学習戦略を提案し、これにより学習効率を向上させ、生成される視覚的品質を高めます。さらに、Stable Diffusionコミュニティで使用されているプラグアンドプレイアダプター(例:ControlNetによる制御可能な生成)を組み合わせるために、既存のアダプターを蒸留されたテキスト条件付きビデオ一貫性モデルに適応させる効率的な戦略、またはサンプリング速度を損なうことなくアダプターをゼロから学習する戦略を提案します。提案手法を画像条件付き動画生成とレイアウト条件付き動画生成で検証し、いずれもトップクラスの結果を達成しました。実験結果は、提案手法の有効性を裏付けています。コードと重みは公開予定です。詳細はhttps://github.com/G-U-N/AnimateLCMでご覧いただけます。
English
Video diffusion models has been gaining increasing attention for its ability
to produce videos that are both coherent and of high fidelity. However, the
iterative denoising process makes it computationally intensive and
time-consuming, thus limiting its applications. Inspired by the Consistency
Model (CM) that distills pretrained image diffusion models to accelerate the
sampling with minimal steps and its successful extension Latent Consistency
Model (LCM) on conditional image generation, we propose AnimateLCM, allowing
for high-fidelity video generation within minimal steps. Instead of directly
conducting consistency learning on the raw video dataset, we propose a
decoupled consistency learning strategy that decouples the distillation of
image generation priors and motion generation priors, which improves the
training efficiency and enhance the generation visual quality. Additionally, to
enable the combination of plug-and-play adapters in stable diffusion community
to achieve various functions (e.g., ControlNet for controllable generation). we
propose an efficient strategy to adapt existing adapters to our distilled
text-conditioned video consistency model or train adapters from scratch without
harming the sampling speed. We validate the proposed strategy in
image-conditioned video generation and layout-conditioned video generation, all
achieving top-performing results. Experimental results validate the
effectiveness of our proposed method. Code and weights will be made public.
More details are available at https://github.com/G-U-N/AnimateLCM.