MotionBooth : Génération de vidéos personnalisées à partir de texte avec prise en compte du mouvement
MotionBooth: Motion-Aware Customized Text-to-Video Generation
June 25, 2024
Auteurs: Jianzong Wu, Xiangtai Li, Yanhong Zeng, Jiangning Zhang, Qianyu Zhou, Yining Li, Yunhai Tong, Kai Chen
cs.AI
Résumé
Dans ce travail, nous présentons MotionBooth, un cadre innovant conçu pour animer des sujets personnalisés avec un contrôle précis des mouvements de l'objet et de la caméra. En exploitant quelques images d'un objet spécifique, nous affinons efficacement un modèle texte-à-vidéo pour capturer avec précision la forme et les attributs de l'objet. Notre approche introduit une perte de région du sujet et une perte de préservation vidéo pour améliorer les performances d'apprentissage du sujet, ainsi qu'une perte d'attention croisée par token du sujet pour intégrer le sujet personnalisé avec les signaux de contrôle de mouvement. De plus, nous proposons des techniques sans apprentissage pour gérer les mouvements du sujet et de la caméra lors de l'inférence. En particulier, nous utilisons la manipulation de cartes d'attention croisée pour contrôler le mouvement du sujet et introduisons un nouveau module de décalage latent pour le contrôle des mouvements de la caméra. MotionBooth excelle dans la préservation de l'apparence des sujets tout en contrôlant simultanément les mouvements dans les vidéos générées. Des évaluations quantitatives et qualitatives approfondies démontrent la supériorité et l'efficacité de notre méthode. Notre page de projet est disponible à l'adresse https://jianzongwu.github.io/projects/motionbooth.
English
In this work, we present MotionBooth, an innovative framework designed for
animating customized subjects with precise control over both object and camera
movements. By leveraging a few images of a specific object, we efficiently
fine-tune a text-to-video model to capture the object's shape and attributes
accurately. Our approach presents subject region loss and video preservation
loss to enhance the subject's learning performance, along with a subject token
cross-attention loss to integrate the customized subject with motion control
signals. Additionally, we propose training-free techniques for managing subject
and camera motions during inference. In particular, we utilize cross-attention
map manipulation to govern subject motion and introduce a novel latent shift
module for camera movement control as well. MotionBooth excels in preserving
the appearance of subjects while simultaneously controlling the motions in
generated videos. Extensive quantitative and qualitative evaluations
demonstrate the superiority and effectiveness of our method. Our project page
is at https://jianzongwu.github.io/projects/motionboothSummary
AI-Generated Summary