ChatPaper.aiChatPaper

MotionCtrl: ビデオ生成のための統合的で柔軟なモーションコントローラ

MotionCtrl: A Unified and Flexible Motion Controller for Video Generation

December 6, 2023
著者: Zhouxia Wang, Ziyang Yuan, Xintao Wang, Tianshui Chen, Menghan Xia, Ping Luo, Ying Shan
cs.AI

要旨

ビデオにおけるモーションは主に、カメラの動きによって生じるカメラモーションと、物体の動きによって生じる物体モーションから構成されます。ビデオ生成においては、カメラモーションと物体モーションの両方を正確に制御することが不可欠です。しかし、既存の研究は主に一方のモーションに焦点を当てるか、あるいは両者を明確に区別していないため、制御能力と多様性が制限されています。そこで本論文では、カメラモーションと物体モーションを効果的かつ独立して制御するために設計された、統一された柔軟なモーションコントローラであるMotionCtrlを提案します。MotionCtrlのアーキテクチャとトレーニング戦略は、カメラモーションと物体モーションの固有の特性、および不完全なトレーニングデータを考慮して慎重に考案されています。従来の手法と比較して、MotionCtrlには以下の3つの主な利点があります:1) カメラモーションと物体モーションを効果的かつ独立して制御し、より細かいモーション制御を可能にし、両者の柔軟で多様な組み合わせを容易にします。2) そのモーション条件はカメラのポーズと軌跡によって決定され、外観に依存せず、生成されたビデオ内の物体の外観や形状に最小限の影響しか与えません。3) 一度トレーニングされれば、幅広いカメラのポーズと軌跡に適応できる比較的汎用性の高いモデルです。MotionCtrlの優位性を示すために、広範な定性的および定量的な実験が行われました。
English
Motions in a video primarily consist of camera motion, induced by camera movement, and object motion, resulting from object movement. Accurate control of both camera and object motion is essential for video generation. However, existing works either mainly focus on one type of motion or do not clearly distinguish between the two, limiting their control capabilities and diversity. Therefore, this paper presents MotionCtrl, a unified and flexible motion controller for video generation designed to effectively and independently control camera and object motion. The architecture and training strategy of MotionCtrl are carefully devised, taking into account the inherent properties of camera motion, object motion, and imperfect training data. Compared to previous methods, MotionCtrl offers three main advantages: 1) It effectively and independently controls camera motion and object motion, enabling more fine-grained motion control and facilitating flexible and diverse combinations of both types of motion. 2) Its motion conditions are determined by camera poses and trajectories, which are appearance-free and minimally impact the appearance or shape of objects in generated videos. 3) It is a relatively generalizable model that can adapt to a wide array of camera poses and trajectories once trained. Extensive qualitative and quantitative experiments have been conducted to demonstrate the superiority of MotionCtrl over existing methods.
PDF222December 15, 2024