ChatPaper.aiChatPaper

MotionMaster: Trasferimento del Movimento della Fotocamera Senza Addestramento per la Generazione di Video

MotionMaster: Training-free Camera Motion Transfer For Video Generation

April 24, 2024
Autori: Teng Hu, Jiangning Zhang, Ran Yi, Yating Wang, Hongrui Huang, Jieyu Weng, Yabiao Wang, Lizhuang Ma
cs.AI

Abstract

L'emergere dei modelli di diffusione ha notevolmente spinto il progresso nella generazione di immagini e video. Recentemente, alcuni sforzi sono stati compiuti nella generazione controllata di video, inclusa la generazione da testo a video e il controllo del movimento nei video, tra i quali il controllo del movimento della telecamera rappresenta un argomento importante. Tuttavia, i metodi esistenti per il controllo del movimento della telecamera si basano sull'addestramento di un modulo temporale della telecamera e richiedono risorse computazionali sostanziali a causa dell'elevato numero di parametri nei modelli di generazione video. Inoltre, i metodi esistenti pre-definiscono i tipi di movimento della telecamera durante l'addestramento, il che limita la loro flessibilità nel controllo della telecamera. Pertanto, per ridurre i costi di addestramento e ottenere un controllo flessibile della telecamera, proponiamo COMD, un nuovo modello di trasferimento del movimento video senza addestramento, che separa i movimenti della telecamera e i movimenti degli oggetti nei video sorgente e trasferisce i movimenti della telecamera estratti a nuovi video. Proponiamo innanzitutto un metodo di separazione del movimento della telecamera one-shot per estrarre il movimento della telecamera da un singolo video sorgente, che separa gli oggetti in movimento dallo sfondo e stima il movimento della telecamera nella regione degli oggetti in movimento basandosi sul movimento nello sfondo risolvendo un'equazione di Poisson. Inoltre, proponiamo un metodo di separazione del movimento della telecamera few-shot per estrarre il movimento comune della telecamera da più video con movimenti simili, che utilizza una tecnica di clustering basata su finestre per estrarre le caratteristiche comuni nelle mappe di attenzione temporale di più video. Infine, proponiamo un metodo di combinazione del movimento per combinare insieme diversi tipi di movimenti della telecamera, consentendo al nostro modello un controllo della telecamera più controllabile e flessibile. Esperimenti estensivi dimostrano che il nostro approccio senza addestramento può efficacemente separare il movimento camera-oggetto e applicare il movimento della telecamera separato a un'ampia gamma di attività di generazione video controllabile, raggiungendo un controllo del movimento della telecamera flessibile e diversificato.
English
The emergence of diffusion models has greatly propelled the progress in image and video generation. Recently, some efforts have been made in controllable video generation, including text-to-video generation and video motion control, among which camera motion control is an important topic. However, existing camera motion control methods rely on training a temporal camera module, and necessitate substantial computation resources due to the large amount of parameters in video generation models. Moreover, existing methods pre-define camera motion types during training, which limits their flexibility in camera control. Therefore, to reduce training costs and achieve flexible camera control, we propose COMD, a novel training-free video motion transfer model, which disentangles camera motions and object motions in source videos and transfers the extracted camera motions to new videos. We first propose a one-shot camera motion disentanglement method to extract camera motion from a single source video, which separates the moving objects from the background and estimates the camera motion in the moving objects region based on the motion in the background by solving a Poisson equation. Furthermore, we propose a few-shot camera motion disentanglement method to extract the common camera motion from multiple videos with similar camera motions, which employs a window-based clustering technique to extract the common features in temporal attention maps of multiple videos. Finally, we propose a motion combination method to combine different types of camera motions together, enabling our model a more controllable and flexible camera control. Extensive experiments demonstrate that our training-free approach can effectively decouple camera-object motion and apply the decoupled camera motion to a wide range of controllable video generation tasks, achieving flexible and diverse camera motion control.
PDF131December 15, 2024