MotionMaster: Transferencia de Movimiento de Cámara sin Entrenamiento para la Generación de Videos
MotionMaster: Training-free Camera Motion Transfer For Video Generation
April 24, 2024
Autores: Teng Hu, Jiangning Zhang, Ran Yi, Yating Wang, Hongrui Huang, Jieyu Weng, Yabiao Wang, Lizhuang Ma
cs.AI
Resumen
El surgimiento de los modelos de difusión ha impulsado significativamente el progreso en la generación de imágenes y videos. Recientemente, se han realizado algunos esfuerzos en la generación controlada de videos, incluyendo la generación de texto a video y el control del movimiento en videos, entre los cuales el control del movimiento de la cámara es un tema importante. Sin embargo, los métodos existentes de control del movimiento de la cámara dependen del entrenamiento de un módulo temporal de cámara y requieren recursos computacionales sustanciales debido a la gran cantidad de parámetros en los modelos de generación de videos. Además, los métodos existentes predefinen los tipos de movimiento de la cámara durante el entrenamiento, lo que limita su flexibilidad en el control de la cámara. Por lo tanto, para reducir los costos de entrenamiento y lograr un control flexible de la cámara, proponemos COMD, un novedoso modelo de transferencia de movimiento en videos sin necesidad de entrenamiento, que desacopla los movimientos de la cámara y los movimientos de los objetos en los videos fuente y transfiere los movimientos de la cámara extraídos a nuevos videos. Primero, proponemos un método de desacoplamiento de movimiento de la cámara en una sola toma para extraer el movimiento de la cámara de un único video fuente, que separa los objetos en movimiento del fondo y estima el movimiento de la cámara en la región de los objetos en movimiento basándose en el movimiento del fondo mediante la resolución de una ecuación de Poisson. Además, proponemos un método de desacoplamiento de movimiento de la cámara en pocas tomas para extraer el movimiento común de la cámara de múltiples videos con movimientos de cámara similares, que emplea una técnica de agrupación basada en ventanas para extraer las características comunes en los mapas de atención temporal de múltiples videos. Finalmente, proponemos un método de combinación de movimientos para combinar diferentes tipos de movimientos de la cámara, permitiendo a nuestro modelo un control de la cámara más controlable y flexible. Experimentos extensivos demuestran que nuestro enfoque sin entrenamiento puede desacoplar efectivamente el movimiento cámara-objeto y aplicar el movimiento de la cámara desacoplado a una amplia gama de tareas de generación controlada de videos, logrando un control flexible y diverso del movimiento de la cámara.
English
The emergence of diffusion models has greatly propelled the progress in image
and video generation. Recently, some efforts have been made in controllable
video generation, including text-to-video generation and video motion control,
among which camera motion control is an important topic. However, existing
camera motion control methods rely on training a temporal camera module, and
necessitate substantial computation resources due to the large amount of
parameters in video generation models. Moreover, existing methods pre-define
camera motion types during training, which limits their flexibility in camera
control. Therefore, to reduce training costs and achieve flexible camera
control, we propose COMD, a novel training-free video motion transfer model,
which disentangles camera motions and object motions in source videos and
transfers the extracted camera motions to new videos. We first propose a
one-shot camera motion disentanglement method to extract camera motion from a
single source video, which separates the moving objects from the background and
estimates the camera motion in the moving objects region based on the motion in
the background by solving a Poisson equation. Furthermore, we propose a
few-shot camera motion disentanglement method to extract the common camera
motion from multiple videos with similar camera motions, which employs a
window-based clustering technique to extract the common features in temporal
attention maps of multiple videos. Finally, we propose a motion combination
method to combine different types of camera motions together, enabling our
model a more controllable and flexible camera control. Extensive experiments
demonstrate that our training-free approach can effectively decouple
camera-object motion and apply the decoupled camera motion to a wide range of
controllable video generation tasks, achieving flexible and diverse camera
motion control.