MotionCtrl: Un Controller di Movimento Unificato e Flessibile per la Generazione di Video
MotionCtrl: A Unified and Flexible Motion Controller for Video Generation
December 6, 2023
Autori: Zhouxia Wang, Ziyang Yuan, Xintao Wang, Tianshui Chen, Menghan Xia, Ping Luo, Ying Shan
cs.AI
Abstract
I movimenti in un video consistono principalmente nel movimento della telecamera, indotto dallo spostamento della telecamera stessa, e nel movimento degli oggetti, risultante dallo spostamento degli oggetti. Un controllo accurato sia del movimento della telecamera che degli oggetti è essenziale per la generazione di video. Tuttavia, i lavori esistenti si concentrano principalmente su un tipo di movimento o non distinguono chiaramente tra i due, limitando le loro capacità di controllo e la diversità. Pertanto, questo articolo presenta MotionCtrl, un controller di movimento unificato e flessibile per la generazione di video, progettato per controllare in modo efficace e indipendente il movimento della telecamera e degli oggetti. L'architettura e la strategia di addestramento di MotionCtrl sono state accuratamente concepite, tenendo conto delle proprietà intrinseche del movimento della telecamera, del movimento degli oggetti e dei dati di addestramento imperfetti. Rispetto ai metodi precedenti, MotionCtrl offre tre principali vantaggi: 1) Controlla in modo efficace e indipendente il movimento della telecamera e degli oggetti, consentendo un controllo più fine del movimento e facilitando combinazioni flessibili e diversificate di entrambi i tipi di movimento. 2) Le sue condizioni di movimento sono determinate dalle pose e dalle traiettorie della telecamera, che sono prive di aspetto e hanno un impatto minimo sull'aspetto o sulla forma degli oggetti nei video generati. 3) È un modello relativamente generalizzabile che può adattarsi a una vasta gamma di pose e traiettorie della telecamera una volta addestrato. Sono stati condotti ampi esperimenti qualitativi e quantitativi per dimostrare la superiorità di MotionCtrl rispetto ai metodi esistenti.
English
Motions in a video primarily consist of camera motion, induced by camera
movement, and object motion, resulting from object movement. Accurate control
of both camera and object motion is essential for video generation. However,
existing works either mainly focus on one type of motion or do not clearly
distinguish between the two, limiting their control capabilities and diversity.
Therefore, this paper presents MotionCtrl, a unified and flexible motion
controller for video generation designed to effectively and independently
control camera and object motion. The architecture and training strategy of
MotionCtrl are carefully devised, taking into account the inherent properties
of camera motion, object motion, and imperfect training data. Compared to
previous methods, MotionCtrl offers three main advantages: 1) It effectively
and independently controls camera motion and object motion, enabling more
fine-grained motion control and facilitating flexible and diverse combinations
of both types of motion. 2) Its motion conditions are determined by camera
poses and trajectories, which are appearance-free and minimally impact the
appearance or shape of objects in generated videos. 3) It is a relatively
generalizable model that can adapt to a wide array of camera poses and
trajectories once trained. Extensive qualitative and quantitative experiments
have been conducted to demonstrate the superiority of MotionCtrl over existing
methods.