MotionBooth: Generazione Personalizzata di Video da Testo con Consapevolezza del Movimento
MotionBooth: Motion-Aware Customized Text-to-Video Generation
June 25, 2024
Autori: Jianzong Wu, Xiangtai Li, Yanhong Zeng, Jiangning Zhang, Qianyu Zhou, Yining Li, Yunhai Tong, Kai Chen
cs.AI
Abstract
In questo lavoro presentiamo MotionBooth, un framework innovativo progettato per animare soggetti personalizzati con un controllo preciso sui movimenti sia dell'oggetto che della telecamera. Sfruttando poche immagini di un oggetto specifico, ottimizziamo in modo efficiente un modello text-to-video per catturare accuratamente la forma e gli attributi dell'oggetto. Il nostro approccio introduce una perdita per la regione del soggetto e una perdita per la preservazione del video per migliorare le prestazioni di apprendimento del soggetto, insieme a una perdita di cross-attention basata su token del soggetto per integrare il soggetto personalizzato con i segnali di controllo del movimento. Inoltre, proponiamo tecniche senza addestramento per gestire i movimenti del soggetto e della telecamera durante l'inferenza. In particolare, utilizziamo la manipolazione delle mappe di cross-attention per governare il movimento del soggetto e introduciamo un modulo innovativo di spostamento latente per il controllo del movimento della telecamera. MotionBooth eccelle nel preservare l'aspetto dei soggetti mentre controlla simultaneamente i movimenti nei video generati. Valutazioni quantitative e qualitative estensive dimostrano la superiorità e l'efficacia del nostro metodo. La pagina del progetto è disponibile all'indirizzo https://jianzongwu.github.io/projects/motionbooth.
English
In this work, we present MotionBooth, an innovative framework designed for
animating customized subjects with precise control over both object and camera
movements. By leveraging a few images of a specific object, we efficiently
fine-tune a text-to-video model to capture the object's shape and attributes
accurately. Our approach presents subject region loss and video preservation
loss to enhance the subject's learning performance, along with a subject token
cross-attention loss to integrate the customized subject with motion control
signals. Additionally, we propose training-free techniques for managing subject
and camera motions during inference. In particular, we utilize cross-attention
map manipulation to govern subject motion and introduce a novel latent shift
module for camera movement control as well. MotionBooth excels in preserving
the appearance of subjects while simultaneously controlling the motions in
generated videos. Extensive quantitative and qualitative evaluations
demonstrate the superiority and effectiveness of our method. Our project page
is at https://jianzongwu.github.io/projects/motionbooth