MotionMaster: 비디오 생성을 위한 학습이 필요 없는 카메라 모션 전이 기술
MotionMaster: Training-free Camera Motion Transfer For Video Generation
April 24, 2024
저자: Teng Hu, Jiangning Zhang, Ran Yi, Yating Wang, Hongrui Huang, Jieyu Weng, Yabiao Wang, Lizhuang Ma
cs.AI
초록
확산 모델의 등장은 이미지 및 비디오 생성 분야의 발전을 크게 촉진했습니다. 최근에는 텍스트-투-비디오 생성 및 비디오 모션 제어를 포함한 제어 가능한 비디오 생성에 대한 여러 연구가 진행되었으며, 그 중 카메라 모션 제어는 중요한 주제 중 하나입니다. 그러나 기존의 카메라 모션 제어 방법들은 시간적 카메라 모듈을 학습하는 데 의존하며, 비디오 생성 모델의 방대한 파라미터 양으로 인해 상당한 계산 자원이 필요합니다. 또한, 기존 방법들은 학습 과정에서 카메라 모션 유형을 미리 정의하므로 카메라 제어의 유연성이 제한됩니다. 따라서 학습 비용을 줄이고 유연한 카메라 제어를 달성하기 위해, 우리는 학습이 필요 없는 새로운 비디오 모션 전이 모델인 COMD를 제안합니다. 이 모델은 소스 비디오에서 카메라 모션과 객체 모션을 분리하고, 추출된 카메라 모션을 새로운 비디오에 전이합니다. 먼저, 단일 소스 비디오에서 카메라 모션을 추출하기 위한 원샷 카메라 모션 분리 방법을 제안합니다. 이 방법은 움직이는 객체를 배경으로부터 분리하고, 배경의 모션을 기반으로 움직이는 객체 영역에서의 카메라 모션을 푸아송 방정식을 해결하여 추정합니다. 또한, 유사한 카메라 모션을 가진 여러 비디오에서 공통적인 카메라 모션을 추출하기 위한 퓨샷 카메라 모션 분리 방법을 제안합니다. 이 방법은 윈도우 기반 클러스터링 기술을 사용하여 여러 비디오의 시간적 주의 맵에서 공통적인 특징을 추출합니다. 마지막으로, 다양한 유형의 카메라 모션을 결합하기 위한 모션 결합 방법을 제안하여, 우리 모델이 더욱 제어 가능하고 유연한 카메라 제어를 가능하게 합니다. 광범위한 실험을 통해, 우리의 학습이 필요 없는 접근 방식이 카메라-객체 모션을 효과적으로 분리하고, 분리된 카메라 모션을 다양한 제어 가능한 비디오 생성 작업에 적용하여 유연하고 다양한 카메라 모션 제어를 달성할 수 있음을 입증했습니다.
English
The emergence of diffusion models has greatly propelled the progress in image
and video generation. Recently, some efforts have been made in controllable
video generation, including text-to-video generation and video motion control,
among which camera motion control is an important topic. However, existing
camera motion control methods rely on training a temporal camera module, and
necessitate substantial computation resources due to the large amount of
parameters in video generation models. Moreover, existing methods pre-define
camera motion types during training, which limits their flexibility in camera
control. Therefore, to reduce training costs and achieve flexible camera
control, we propose COMD, a novel training-free video motion transfer model,
which disentangles camera motions and object motions in source videos and
transfers the extracted camera motions to new videos. We first propose a
one-shot camera motion disentanglement method to extract camera motion from a
single source video, which separates the moving objects from the background and
estimates the camera motion in the moving objects region based on the motion in
the background by solving a Poisson equation. Furthermore, we propose a
few-shot camera motion disentanglement method to extract the common camera
motion from multiple videos with similar camera motions, which employs a
window-based clustering technique to extract the common features in temporal
attention maps of multiple videos. Finally, we propose a motion combination
method to combine different types of camera motions together, enabling our
model a more controllable and flexible camera control. Extensive experiments
demonstrate that our training-free approach can effectively decouple
camera-object motion and apply the decoupled camera motion to a wide range of
controllable video generation tasks, achieving flexible and diverse camera
motion control.Summary
AI-Generated Summary