MotionClone: 제어 가능한 비디오 생성을 위한 학습 없는 모션 복제 기술
MotionClone: Training-Free Motion Cloning for Controllable Video Generation
June 8, 2024
저자: Pengyang Ling, Jiazi Bu, Pan Zhang, Xiaoyi Dong, Yuhang Zang, Tong Wu, Huaian Chen, Jiaqi Wang, Yi Jin
cs.AI
초록
모션 기반 제어 가능 텍스트-투-비디오 생성은 비디오 생성을 제어하기 위해 모션을 활용합니다. 기존 방법들은 일반적으로 모션 큐를 인코딩하기 위한 모델 학습이나 비디오 확산 모델의 미세 조정을 필요로 했습니다. 그러나 이러한 접근 방식들은 훈련된 도메인 외부에서 적용될 때 최적의 모션 생성을 달성하지 못하는 경우가 많았습니다. 본 연구에서는 참조 비디오에서 모션을 복제하여 텍스트-투-비디오 생성을 제어할 수 있는 훈련이 필요 없는 프레임워크인 MotionClone을 제안합니다. 우리는 비디오 인버전에서 시간적 주의 메커니즘을 사용하여 참조 비디오의 모션을 표현하고, 주의 가중치 내의 잡음이나 매우 미세한 모션의 영향을 완화하기 위해 기본 시간적 주의 가이던스를 도입했습니다. 또한, 생성 모델이 합리적인 공간 관계를 합성하고 프롬프트 준수 능력을 향상시키도록 돕기 위해, 참조 비디오에서 전경의 대략적인 위치와 원래의 분류자 없는 가이던스 특징을 활용하여 비디오 생성을 안내하는 위치 인식 의미 가이던스 메커니즘을 제안했습니다. 광범위한 실험을 통해 MotionClone이 전역 카메라 모션과 지역 객체 모션 모두에서 능숙함을 보이며, 모션 충실도, 텍스트 정렬, 시간적 일관성 측면에서 뛰어난 우수성을 보임을 입증했습니다.
English
Motion-based controllable text-to-video generation involves motions to
control the video generation. Previous methods typically require the training
of models to encode motion cues or the fine-tuning of video diffusion models.
However, these approaches often result in suboptimal motion generation when
applied outside the trained domain. In this work, we propose MotionClone, a
training-free framework that enables motion cloning from a reference video to
control text-to-video generation. We employ temporal attention in video
inversion to represent the motions in the reference video and introduce primary
temporal-attention guidance to mitigate the influence of noisy or very subtle
motions within the attention weights. Furthermore, to assist the generation
model in synthesizing reasonable spatial relationships and enhance its
prompt-following capability, we propose a location-aware semantic guidance
mechanism that leverages the coarse location of the foreground from the
reference video and original classifier-free guidance features to guide the
video generation. Extensive experiments demonstrate that MotionClone exhibits
proficiency in both global camera motion and local object motion, with notable
superiority in terms of motion fidelity, textual alignment, and temporal
consistency.Summary
AI-Generated Summary