MotionBooth: 동작 인식 기반 맞춤형 텍스트-투-비디오 생성
MotionBooth: Motion-Aware Customized Text-to-Video Generation
June 25, 2024
저자: Jianzong Wu, Xiangtai Li, Yanhong Zeng, Jiangning Zhang, Qianyu Zhou, Yining Li, Yunhai Tong, Kai Chen
cs.AI
초록
본 연구에서는 사용자 정의 대상의 애니메이션을 생성하면서 대상과 카메라의 움직임을 정밀하게 제어할 수 있는 혁신적인 프레임워크인 MotionBooth를 소개합니다. 특정 대상의 이미지 몇 장을 활용하여 텍스트-투-비디오 모델을 효율적으로 미세 조정함으로써 대상의 형태와 속성을 정확하게 포착합니다. 우리의 접근 방식은 대상의 학습 성능을 향상시키기 위해 대상 영역 손실과 비디오 보존 손실을 제안하며, 사용자 정의 대상과 모션 제어 신호를 통합하기 위해 대상 토큰 교차 주의 손실을 도입합니다. 또한, 추론 과정에서 대상과 카메라의 움직임을 관리하기 위한 학습이 필요 없는 기법을 제안합니다. 특히, 교차 주의 맵 조작을 통해 대상의 움직임을 제어하고, 카메라 움직임 제어를 위한 새로운 잠재 이동 모듈을 소개합니다. MotionBooth는 생성된 비디오에서 대상의 외관을 보존하면서 동시에 움직임을 제어하는 데 탁월한 성능을 보입니다. 광범위한 정량적 및 정성적 평가를 통해 우리 방법의 우수성과 효과성을 입증합니다. 프로젝트 페이지는 https://jianzongwu.github.io/projects/motionbooth에서 확인할 수 있습니다.
English
In this work, we present MotionBooth, an innovative framework designed for
animating customized subjects with precise control over both object and camera
movements. By leveraging a few images of a specific object, we efficiently
fine-tune a text-to-video model to capture the object's shape and attributes
accurately. Our approach presents subject region loss and video preservation
loss to enhance the subject's learning performance, along with a subject token
cross-attention loss to integrate the customized subject with motion control
signals. Additionally, we propose training-free techniques for managing subject
and camera motions during inference. In particular, we utilize cross-attention
map manipulation to govern subject motion and introduce a novel latent shift
module for camera movement control as well. MotionBooth excels in preserving
the appearance of subjects while simultaneously controlling the motions in
generated videos. Extensive quantitative and qualitative evaluations
demonstrate the superiority and effectiveness of our method. Our project page
is at https://jianzongwu.github.io/projects/motionboothSummary
AI-Generated Summary