ChatPaper.aiChatPaper

AnimateLCM: 분리된 일관성 학습을 통한 개인화된 확산 모델 및 어댑터의 애니메이션 가속화

AnimateLCM: Accelerating the Animation of Personalized Diffusion Models and Adapters with Decoupled Consistency Learning

February 1, 2024
저자: Fu-Yun Wang, Zhaoyang Huang, Xiaoyu Shi, Weikang Bian, Guanglu Song, Yu Liu, Hongsheng Li
cs.AI

초록

비디오 확산 모델(Video Diffusion Models)은 일관성 있고 고화질의 비디오를 생성할 수 있는 능력으로 인해 점점 더 많은 관심을 받고 있습니다. 그러나 반복적인 노이즈 제거 과정으로 인해 계산 집약적이고 시간이 많이 소요되어 그 응용이 제한되고 있습니다. 사전 학습된 이미지 확산 모델을 최소한의 단계로 샘플링을 가속화하는 일관성 모델(Consistency Model, CM)과 조건부 이미지 생성에서 성공적으로 확장된 잠재 일관성 모델(Latent Consistency Model, LCM)에서 영감을 받아, 우리는 최소한의 단계로 고화질 비디오 생성을 가능하게 하는 AnimateLCM을 제안합니다. 원시 비디오 데이터셋에 직접 일관성 학습을 수행하는 대신, 이미지 생성 사전 지식과 모션 생성 사전 지식을 분리하여 학습 효율성을 향상시키고 생성 시각적 품질을 개선하는 분리된 일관성 학습 전략을 제안합니다. 또한, Stable Diffusion 커뮤니티에서 플러그 앤 플레이 어댑터를 결합하여 다양한 기능(예: ControlNet을 통한 제어 가능한 생성)을 달성할 수 있도록, 기존 어댑터를 우리의 증류된 텍스트 조건 비디오 일관성 모델에 적응시키거나 샘플링 속도를 저해하지 않고 어댑터를 처음부터 학습할 수 있는 효율적인 전략을 제안합니다. 우리는 이미지 조건 비디오 생성과 레이아웃 조건 비디오 생성에서 제안된 전략을 검증하며, 모두 최고 수준의 결과를 달성했습니다. 실험 결과는 우리가 제안한 방법의 효과를 입증합니다. 코드와 가중치는 공개될 예정이며, 더 자세한 내용은 https://github.com/G-U-N/AnimateLCM에서 확인할 수 있습니다.
English
Video diffusion models has been gaining increasing attention for its ability to produce videos that are both coherent and of high fidelity. However, the iterative denoising process makes it computationally intensive and time-consuming, thus limiting its applications. Inspired by the Consistency Model (CM) that distills pretrained image diffusion models to accelerate the sampling with minimal steps and its successful extension Latent Consistency Model (LCM) on conditional image generation, we propose AnimateLCM, allowing for high-fidelity video generation within minimal steps. Instead of directly conducting consistency learning on the raw video dataset, we propose a decoupled consistency learning strategy that decouples the distillation of image generation priors and motion generation priors, which improves the training efficiency and enhance the generation visual quality. Additionally, to enable the combination of plug-and-play adapters in stable diffusion community to achieve various functions (e.g., ControlNet for controllable generation). we propose an efficient strategy to adapt existing adapters to our distilled text-conditioned video consistency model or train adapters from scratch without harming the sampling speed. We validate the proposed strategy in image-conditioned video generation and layout-conditioned video generation, all achieving top-performing results. Experimental results validate the effectiveness of our proposed method. Code and weights will be made public. More details are available at https://github.com/G-U-N/AnimateLCM.
PDF232December 15, 2024