MotionBooth: Bewegingsbewuste Gepersonaliseerde Tekst-naar-Video Generatie
MotionBooth: Motion-Aware Customized Text-to-Video Generation
June 25, 2024
Auteurs: Jianzong Wu, Xiangtai Li, Yanhong Zeng, Jiangning Zhang, Qianyu Zhou, Yining Li, Yunhai Tong, Kai Chen
cs.AI
Samenvatting
In dit werk presenteren we MotionBooth, een innovatief framework ontworpen voor het animeren van gepersonaliseerde onderwerpen met nauwkeurige controle over zowel object- als camerabewegingen. Door gebruik te maken van enkele afbeeldingen van een specifiek object, verfijnen we efficiënt een tekst-naar-video model om de vorm en eigenschappen van het object nauwkeurig vast te leggen. Onze aanpak introduceert subjectregioverlies en videobehoudverlies om de leerprestaties van het onderwerp te verbeteren, samen met een cross-attention verlies voor subjecttokens om het gepersonaliseerde onderwerp te integreren met bewegingscontrolesignalen. Daarnaast stellen we trainingsvrije technieken voor voor het beheren van onderwerp- en camerabewegingen tijdens de inferentie. In het bijzonder maken we gebruik van cross-attention map manipulatie om de beweging van het onderwerp te sturen en introduceren we een nieuw latent shift module voor camerabewegingscontrole. MotionBooth blinkt uit in het behouden van het uiterlijk van onderwerpen terwijl tegelijkertijd de bewegingen in gegenereerde video's worden gecontroleerd. Uitgebreide kwantitatieve en kwalitatieve evaluaties tonen de superioriteit en effectiviteit van onze methode aan. Onze projectpagina is te vinden op https://jianzongwu.github.io/projects/motionbooth.
English
In this work, we present MotionBooth, an innovative framework designed for
animating customized subjects with precise control over both object and camera
movements. By leveraging a few images of a specific object, we efficiently
fine-tune a text-to-video model to capture the object's shape and attributes
accurately. Our approach presents subject region loss and video preservation
loss to enhance the subject's learning performance, along with a subject token
cross-attention loss to integrate the customized subject with motion control
signals. Additionally, we propose training-free techniques for managing subject
and camera motions during inference. In particular, we utilize cross-attention
map manipulation to govern subject motion and introduce a novel latent shift
module for camera movement control as well. MotionBooth excels in preserving
the appearance of subjects while simultaneously controlling the motions in
generated videos. Extensive quantitative and qualitative evaluations
demonstrate the superiority and effectiveness of our method. Our project page
is at https://jianzongwu.github.io/projects/motionbooth