Incitation au mouvement : Contrôle de la génération vidéo avec des trajectoires de mouvement
Motion Prompting: Controlling Video Generation with Motion Trajectories
December 3, 2024
Auteurs: Daniel Geng, Charles Herrmann, Junhwa Hur, Forrester Cole, Serena Zhang, Tobias Pfaff, Tatiana Lopez-Guevara, Carl Doersch, Yusuf Aytar, Michael Rubinstein, Chen Sun, Oliver Wang, Andrew Owens, Deqing Sun
cs.AI
Résumé
Le contrôle du mouvement est crucial pour générer un contenu vidéo expressif et captivant ; cependant, la plupart des modèles existants de génération vidéo s'appuient principalement sur des instructions textuelles pour le contrôle, ce qui peine à capturer les subtilités des actions dynamiques et des compositions temporelles. À cette fin, nous entraînons un modèle de génération vidéo conditionné par des trajectoires de mouvement spatio-temporellement clairsemées ou denses. Contrairement aux travaux antérieurs de conditionnement du mouvement, cette représentation flexible peut encoder n'importe quel nombre de trajectoires, un mouvement spécifique à un objet ou global, et un mouvement temporellement clairsemé ; en raison de sa flexibilité, nous appelons ce conditionnement des instructions de mouvement. Alors que les utilisateurs peuvent spécifier directement des trajectoires clairsemées, nous montrons également comment traduire les demandes d'utilisateurs de haut niveau en instructions de mouvement détaillées et semi-clairsemées, un processus que nous appelons expansion des instructions de mouvement. Nous démontrons la polyvalence de notre approche à travers diverses applications, notamment le contrôle du mouvement de la caméra et des objets, l'"interaction" avec une image, le transfert de mouvement et l'édition d'images. Nos résultats mettent en avant des comportements émergents, tels que la physique réaliste, suggérant le potentiel des instructions de mouvement pour sonder les modèles vidéo et interagir avec les futurs modèles génératifs du monde. Enfin, nous évaluons quantitativement, menons une étude humaine et démontrons de solides performances. Les résultats vidéo sont disponibles sur notre page web : https://motion-prompting.github.io/
English
Motion control is crucial for generating expressive and compelling video
content; however, most existing video generation models rely mainly on text
prompts for control, which struggle to capture the nuances of dynamic actions
and temporal compositions. To this end, we train a video generation model
conditioned on spatio-temporally sparse or dense motion trajectories. In
contrast to prior motion conditioning work, this flexible representation can
encode any number of trajectories, object-specific or global scene motion, and
temporally sparse motion; due to its flexibility we refer to this conditioning
as motion prompts. While users may directly specify sparse trajectories, we
also show how to translate high-level user requests into detailed, semi-dense
motion prompts, a process we term motion prompt expansion. We demonstrate the
versatility of our approach through various applications, including camera and
object motion control, "interacting" with an image, motion transfer, and image
editing. Our results showcase emergent behaviors, such as realistic physics,
suggesting the potential of motion prompts for probing video models and
interacting with future generative world models. Finally, we evaluate
quantitatively, conduct a human study, and demonstrate strong performance.
Video results are available on our webpage: https://motion-prompting.github.io/Summary
AI-Generated Summary