ChatPaper.aiChatPaper

MotionMaster : Transfert de mouvement de caméra sans apprentissage pour la génération de vidéos

MotionMaster: Training-free Camera Motion Transfer For Video Generation

April 24, 2024
Auteurs: Teng Hu, Jiangning Zhang, Ran Yi, Yating Wang, Hongrui Huang, Jieyu Weng, Yabiao Wang, Lizhuang Ma
cs.AI

Résumé

L'émergence des modèles de diffusion a grandement propulsé les progrès dans la génération d'images et de vidéos. Récemment, des efforts ont été consacrés à la génération de vidéos contrôlables, incluant la génération de texte-à-vidéo et le contrôle des mouvements vidéo, parmi lesquels le contrôle des mouvements de caméra constitue un sujet important. Cependant, les méthodes existantes de contrôle des mouvements de caméra reposent sur l'entraînement d'un module temporel de caméra et nécessitent des ressources de calcul substantielles en raison du grand nombre de paramètres dans les modèles de génération de vidéos. De plus, les méthodes actuelles prédéfinissent les types de mouvements de caméra pendant l'entraînement, ce qui limite leur flexibilité dans le contrôle de la caméra. Par conséquent, afin de réduire les coûts d'entraînement et d'atteindre un contrôle flexible de la caméra, nous proposons COMD, un nouveau modèle de transfert de mouvement vidéo sans entraînement, qui dissocie les mouvements de caméra et les mouvements d'objets dans les vidéos sources et transfère les mouvements de caméra extraits à de nouvelles vidéos. Nous proposons d'abord une méthode de dissociation des mouvements de caméra en une seule étape pour extraire le mouvement de caméra d'une seule vidéo source, qui sépare les objets en mouvement de l'arrière-plan et estime le mouvement de caméra dans la région des objets en mouvement en se basant sur le mouvement de l'arrière-plan en résolvant une équation de Poisson. En outre, nous proposons une méthode de dissociation des mouvements de caméra en quelques étapes pour extraire le mouvement de caméra commun à partir de plusieurs vidéos avec des mouvements de caméra similaires, qui utilise une technique de clustering basée sur des fenêtres pour extraire les caractéristiques communes dans les cartes d'attention temporelle de plusieurs vidéos. Enfin, nous proposons une méthode de combinaison des mouvements pour combiner différents types de mouvements de caméra, permettant à notre modèle un contrôle de caméra plus contrôlable et flexible. Des expériences approfondies démontrent que notre approche sans entraînement peut efficacement découpler les mouvements caméra-objets et appliquer le mouvement de caméra découplé à une large gamme de tâches de génération de vidéos contrôlables, atteignant un contrôle flexible et diversifié des mouvements de caméra.
English
The emergence of diffusion models has greatly propelled the progress in image and video generation. Recently, some efforts have been made in controllable video generation, including text-to-video generation and video motion control, among which camera motion control is an important topic. However, existing camera motion control methods rely on training a temporal camera module, and necessitate substantial computation resources due to the large amount of parameters in video generation models. Moreover, existing methods pre-define camera motion types during training, which limits their flexibility in camera control. Therefore, to reduce training costs and achieve flexible camera control, we propose COMD, a novel training-free video motion transfer model, which disentangles camera motions and object motions in source videos and transfers the extracted camera motions to new videos. We first propose a one-shot camera motion disentanglement method to extract camera motion from a single source video, which separates the moving objects from the background and estimates the camera motion in the moving objects region based on the motion in the background by solving a Poisson equation. Furthermore, we propose a few-shot camera motion disentanglement method to extract the common camera motion from multiple videos with similar camera motions, which employs a window-based clustering technique to extract the common features in temporal attention maps of multiple videos. Finally, we propose a motion combination method to combine different types of camera motions together, enabling our model a more controllable and flexible camera control. Extensive experiments demonstrate that our training-free approach can effectively decouple camera-object motion and apply the decoupled camera motion to a wide range of controllable video generation tasks, achieving flexible and diverse camera motion control.

Summary

AI-Generated Summary

PDF131December 15, 2024