MotionBooth : Génération de vidéos personnalisées à partir de texte avec prise en compte du mouvement

papers.abstract

Dans ce travail, nous présentons MotionBooth, un cadre innovant conçu pour animer des sujets personnalisés avec un contrôle précis des mouvements de l'objet et de la caméra. En exploitant quelques images d'un objet spécifique, nous affinons efficacement un modèle texte-à-vidéo pour capturer avec précision la forme et les attributs de l'objet. Notre approche introduit une perte de région du sujet et une perte de préservation vidéo pour améliorer les performances d'apprentissage du sujet, ainsi qu'une perte d'attention croisée par token du sujet pour intégrer le sujet personnalisé avec les signaux de contrôle de mouvement. De plus, nous proposons des techniques sans apprentissage pour gérer les mouvements du sujet et de la caméra lors de l'inférence. En particulier, nous utilisons la manipulation de cartes d'attention croisée pour contrôler le mouvement du sujet et introduisons un nouveau module de décalage latent pour le contrôle des mouvements de la caméra. MotionBooth excelle dans la préservation de l'apparence des sujets tout en contrôlant simultanément les mouvements dans les vidéos générées. Des évaluations quantitatives et qualitatives approfondies démontrent la supériorité et l'efficacité de notre méthode. Notre page de projet est disponible à l'adresse https://jianzongwu.github.io/projects/motionbooth.

English

In this work, we present MotionBooth, an innovative framework designed for animating customized subjects with precise control over both object and camera movements. By leveraging a few images of a specific object, we efficiently fine-tune a text-to-video model to capture the object's shape and attributes accurately. Our approach presents subject region loss and video preservation loss to enhance the subject's learning performance, along with a subject token cross-attention loss to integrate the customized subject with motion control signals. Additionally, we propose training-free techniques for managing subject and camera motions during inference. In particular, we utilize cross-attention map manipulation to govern subject motion and introduce a novel latent shift module for camera movement control as well. MotionBooth excels in preserving the appearance of subjects while simultaneously controlling the motions in generated videos. Extensive quantitative and qualitative evaluations demonstrate the superiority and effectiveness of our method. Our project page is at https://jianzongwu.github.io/projects/motionbooth

MotionBooth : Génération de vidéos personnalisées à partir de texte avec prise en compte du mouvement

MotionBooth: Motion-Aware Customized Text-to-Video Generation

papers.abstract

Support