ChatPaper.aiChatPaper

MotionBooth: Bewegingsbewuste Gepersonaliseerde Tekst-naar-Video Generatie

MotionBooth: Motion-Aware Customized Text-to-Video Generation

June 25, 2024
Auteurs: Jianzong Wu, Xiangtai Li, Yanhong Zeng, Jiangning Zhang, Qianyu Zhou, Yining Li, Yunhai Tong, Kai Chen
cs.AI

Samenvatting

In dit werk presenteren we MotionBooth, een innovatief framework ontworpen voor het animeren van gepersonaliseerde onderwerpen met nauwkeurige controle over zowel object- als camerabewegingen. Door gebruik te maken van enkele afbeeldingen van een specifiek object, verfijnen we efficiënt een tekst-naar-video model om de vorm en eigenschappen van het object nauwkeurig vast te leggen. Onze aanpak introduceert subjectregioverlies en videobehoudverlies om de leerprestaties van het onderwerp te verbeteren, samen met een cross-attention verlies voor subjecttokens om het gepersonaliseerde onderwerp te integreren met bewegingscontrolesignalen. Daarnaast stellen we trainingsvrije technieken voor voor het beheren van onderwerp- en camerabewegingen tijdens de inferentie. In het bijzonder maken we gebruik van cross-attention map manipulatie om de beweging van het onderwerp te sturen en introduceren we een nieuw latent shift module voor camerabewegingscontrole. MotionBooth blinkt uit in het behouden van het uiterlijk van onderwerpen terwijl tegelijkertijd de bewegingen in gegenereerde video's worden gecontroleerd. Uitgebreide kwantitatieve en kwalitatieve evaluaties tonen de superioriteit en effectiviteit van onze methode aan. Onze projectpagina is te vinden op https://jianzongwu.github.io/projects/motionbooth.
English
In this work, we present MotionBooth, an innovative framework designed for animating customized subjects with precise control over both object and camera movements. By leveraging a few images of a specific object, we efficiently fine-tune a text-to-video model to capture the object's shape and attributes accurately. Our approach presents subject region loss and video preservation loss to enhance the subject's learning performance, along with a subject token cross-attention loss to integrate the customized subject with motion control signals. Additionally, we propose training-free techniques for managing subject and camera motions during inference. In particular, we utilize cross-attention map manipulation to govern subject motion and introduce a novel latent shift module for camera movement control as well. MotionBooth excels in preserving the appearance of subjects while simultaneously controlling the motions in generated videos. Extensive quantitative and qualitative evaluations demonstrate the superiority and effectiveness of our method. Our project page is at https://jianzongwu.github.io/projects/motionbooth
PDF191February 8, 2026