ChatPaper.aiChatPaper

AnimateLCM: 分離された一貫性学習によるパーソナライズド拡散モデルとアダプターのアニメーション加速

AnimateLCM: Accelerating the Animation of Personalized Diffusion Models and Adapters with Decoupled Consistency Learning

February 1, 2024
著者: Fu-Yun Wang, Zhaoyang Huang, Xiaoyu Shi, Weikang Bian, Guanglu Song, Yu Liu, Hongsheng Li
cs.AI

要旨

ビデオ拡散モデルは、一貫性があり高精細な動画を生成する能力から、近年注目を集めています。しかし、反復的なノイズ除去プロセスは計算量が多く時間がかかるため、その応用が制限されています。本研究では、事前学習済みの画像拡散モデルを蒸留して最小限のステップでサンプリングを加速するConsistency Model (CM)と、条件付き画像生成におけるその成功例であるLatent Consistency Model (LCM)に着想を得て、最小ステップで高精細な動画生成を可能にするAnimateLCMを提案します。生のビデオデータセットに対して直接一貫性学習を行うのではなく、画像生成の事前知識と動き生成の事前知識を分離したデカップリング一貫性学習戦略を提案し、これにより学習効率を向上させ、生成される視覚的品質を高めます。さらに、Stable Diffusionコミュニティで使用されているプラグアンドプレイアダプター(例:ControlNetによる制御可能な生成)を組み合わせるために、既存のアダプターを蒸留されたテキスト条件付きビデオ一貫性モデルに適応させる効率的な戦略、またはサンプリング速度を損なうことなくアダプターをゼロから学習する戦略を提案します。提案手法を画像条件付き動画生成とレイアウト条件付き動画生成で検証し、いずれもトップクラスの結果を達成しました。実験結果は、提案手法の有効性を裏付けています。コードと重みは公開予定です。詳細はhttps://github.com/G-U-N/AnimateLCMでご覧いただけます。
English
Video diffusion models has been gaining increasing attention for its ability to produce videos that are both coherent and of high fidelity. However, the iterative denoising process makes it computationally intensive and time-consuming, thus limiting its applications. Inspired by the Consistency Model (CM) that distills pretrained image diffusion models to accelerate the sampling with minimal steps and its successful extension Latent Consistency Model (LCM) on conditional image generation, we propose AnimateLCM, allowing for high-fidelity video generation within minimal steps. Instead of directly conducting consistency learning on the raw video dataset, we propose a decoupled consistency learning strategy that decouples the distillation of image generation priors and motion generation priors, which improves the training efficiency and enhance the generation visual quality. Additionally, to enable the combination of plug-and-play adapters in stable diffusion community to achieve various functions (e.g., ControlNet for controllable generation). we propose an efficient strategy to adapt existing adapters to our distilled text-conditioned video consistency model or train adapters from scratch without harming the sampling speed. We validate the proposed strategy in image-conditioned video generation and layout-conditioned video generation, all achieving top-performing results. Experimental results validate the effectiveness of our proposed method. Code and weights will be made public. More details are available at https://github.com/G-U-N/AnimateLCM.
PDF232December 15, 2024