MotionCtrl: Un Controlador de Movimiento Unificado y Flexible para la Generación de Videos
MotionCtrl: A Unified and Flexible Motion Controller for Video Generation
December 6, 2023
Autores: Zhouxia Wang, Ziyang Yuan, Xintao Wang, Tianshui Chen, Menghan Xia, Ping Luo, Ying Shan
cs.AI
Resumen
Los movimientos en un video consisten principalmente en el movimiento de la cámara, inducido por el desplazamiento de la cámara, y el movimiento de los objetos, resultante del desplazamiento de estos. Un control preciso tanto del movimiento de la cámara como de los objetos es esencial para la generación de videos. Sin embargo, los trabajos existentes se centran principalmente en un tipo de movimiento o no distinguen claramente entre ambos, lo que limita sus capacidades de control y diversidad. Por lo tanto, este artículo presenta MotionCtrl, un controlador de movimiento unificado y flexible para la generación de videos, diseñado para controlar de manera efectiva e independiente el movimiento de la cámara y de los objetos. La arquitectura y la estrategia de entrenamiento de MotionCtrl han sido cuidadosamente diseñadas, teniendo en cuenta las propiedades inherentes del movimiento de la cámara, el movimiento de los objetos y los datos de entrenamiento imperfectos. En comparación con métodos anteriores, MotionCtrl ofrece tres ventajas principales: 1) Controla de manera efectiva e independiente el movimiento de la cámara y de los objetos, permitiendo un control más granular del movimiento y facilitando combinaciones flexibles y diversas de ambos tipos de movimiento. 2) Sus condiciones de movimiento están determinadas por las poses y trayectorias de la cámara, que están libres de apariencia y tienen un impacto mínimo en la apariencia o forma de los objetos en los videos generados. 3) Es un modelo relativamente generalizable que puede adaptarse a una amplia gama de poses y trayectorias de la cámara una vez entrenado. Se han realizado extensos experimentos cualitativos y cuantitativos para demostrar la superioridad de MotionCtrl sobre los métodos existentes.
English
Motions in a video primarily consist of camera motion, induced by camera
movement, and object motion, resulting from object movement. Accurate control
of both camera and object motion is essential for video generation. However,
existing works either mainly focus on one type of motion or do not clearly
distinguish between the two, limiting their control capabilities and diversity.
Therefore, this paper presents MotionCtrl, a unified and flexible motion
controller for video generation designed to effectively and independently
control camera and object motion. The architecture and training strategy of
MotionCtrl are carefully devised, taking into account the inherent properties
of camera motion, object motion, and imperfect training data. Compared to
previous methods, MotionCtrl offers three main advantages: 1) It effectively
and independently controls camera motion and object motion, enabling more
fine-grained motion control and facilitating flexible and diverse combinations
of both types of motion. 2) Its motion conditions are determined by camera
poses and trajectories, which are appearance-free and minimally impact the
appearance or shape of objects in generated videos. 3) It is a relatively
generalizable model that can adapt to a wide array of camera poses and
trajectories once trained. Extensive qualitative and quantitative experiments
have been conducted to demonstrate the superiority of MotionCtrl over existing
methods.