Cinemo: 모션 확산 모델을 활용한 일관성 있고 제어 가능한 이미지 애니메이션
Cinemo: Consistent and Controllable Image Animation with Motion Diffusion Models
July 22, 2024
저자: Xin Ma, Yaohui Wang, Gengyu Jia, Xinyuan Chen, Yuan-Fang Li, Cunjian Chen, Yu Qiao
cs.AI
초록
디퓨전 모델은 강력한 생성 능력 덕분에 이미지 애니메이션 분야에서 큰 진전을 이루었습니다. 그러나 시간이 지남에 따라 입력 정적 이미지의 스타일, 배경, 객체 등 세부 정보를 유지하며 시공간적 일관성을 유지하고, 텍스트 프롬프트에 의해 유도된 애니메이션 비디오 내러티브의 부드러움을 보장하는 것은 여전히 어려운 과제로 남아 있습니다. 본 논문에서는 더 나은 모션 제어 가능성과 더 강력한 시간적 일관성 및 부드러움을 달성하기 위한 새로운 이미지 애니메이션 접근법인 Cinemo을 소개합니다. 일반적으로, 우리는 Cinemo의 학습 및 추론 단계에서 세 가지 효과적인 전략을 제안하여 목표를 달성합니다. 학습 단계에서 Cinemo은 모션 디퓨전 모델을 통해 후속 프레임을 직접 예측하는 대신 모션 잔차의 분포를 학습하는 데 중점을 둡니다. 또한, 구조적 유사성 지수 기반 전략을 제안하여 Cinemo이 모션 강도를 더 잘 제어할 수 있도록 합니다. 추론 단계에서는 이산 코사인 변환 기반의 노이즈 정제 기술을 도입하여 갑작스러운 모션 변화를 완화합니다. 이러한 세 가지 전략은 Cinemo이 매우 일관적이고 부드러우며 모션 제어가 가능한 결과를 생성할 수 있게 합니다. 기존 방법과 비교하여 Cinemo은 더 간단하고 정확한 사용자 제어 기능을 제공합니다. 여러 최신 방법(상용 도구 및 연구 접근법 포함)과의 광범위한 실험을 통해 다양한 메트릭에서 우리가 제안한 접근법의 효과성과 우수성을 입증합니다.
English
Diffusion models have achieved great progress in image animation due to
powerful generative capabilities. However, maintaining spatio-temporal
consistency with detailed information from the input static image over time
(e.g., style, background, and object of the input static image) and ensuring
smoothness in animated video narratives guided by textual prompts still remains
challenging. In this paper, we introduce Cinemo, a novel image animation
approach towards achieving better motion controllability, as well as stronger
temporal consistency and smoothness. In general, we propose three effective
strategies at the training and inference stages of Cinemo to accomplish our
goal. At the training stage, Cinemo focuses on learning the distribution of
motion residuals, rather than directly predicting subsequent via a motion
diffusion model. Additionally, a structural similarity index-based strategy is
proposed to enable Cinemo to have better controllability of motion intensity.
At the inference stage, a noise refinement technique based on discrete cosine
transformation is introduced to mitigate sudden motion changes. Such three
strategies enable Cinemo to produce highly consistent, smooth, and
motion-controllable results. Compared to previous methods, Cinemo offers
simpler and more precise user controllability. Extensive experiments against
several state-of-the-art methods, including both commercial tools and research
approaches, across multiple metrics, demonstrate the effectiveness and
superiority of our proposed approach.Summary
AI-Generated Summary