MIMO: 空間分解モデリングを用いた制御可能なキャラクタービデオ合成
MIMO: Controllable Character Video Synthesis with Spatial Decomposed Modeling
September 24, 2024
著者: Yifang Men, Yuan Yao, Miaomiao Cui, Liefeng Bo
cs.AI
要旨
キャラクタービデオ合成は、リアルなシーン内でアニメーション可能なキャラクターのビデオを生成することを目指しています。コンピュータビジョンとグラフィックスコミュニティにおける基本的な問題として、3D作業は通常、ケースごとのトレーニングに複数のビューのキャプチャが必要であり、これにより任意のキャラクターを短時間でモデリングする適用範囲が著しく制限されます。最近の2D手法は、事前トレーニングされた拡散モデルを介してこの制限を破りますが、ポーズの一般性やシーンとの相互作用に苦労しています。このため、我々はMIMOを提案します。これは、単純なユーザー入力によって提供される制御可能な属性(すなわち、キャラクター、動き、シーン)を持つキャラクタービデオを合成するだけでなく、任意のキャラクターへの高度なスケーラビリティ、新しい3Dモーションへの一般性、およびインタラクティブな現実世界のシーンへの適用性を統一されたフレームワークで同時に達成できる新しいフレームワークです。中心となるアイデアは、ビデオの3D的性質を考慮して、2Dビデオをコンパクトな空間コードにエンコードすることです。具体的には、単眼深度推定器を使用して2Dフレームのピクセルを3Dに持ち上げ、3Dの深さに基づいてビデオクリップを3つの空間コンポーネント(すなわち、主要な人物、基礎となるシーン、浮遊する遮蔽物)に階層的なレイヤーで分解します。これらのコンポーネントは、さらに標準的なアイデンティティコード、構造化されたモーションコード、完全なシーンコードにエンコードされ、合成プロセスの制御信号として利用されます。空間分解モデリングの設計により、柔軟なユーザー制御、複雑なモーション表現、およびシーンとの3D認識合成が可能となります。実験結果は、提案手法の有効性と堅牢性を示しています。
English
Character video synthesis aims to produce realistic videos of animatable
characters within lifelike scenes. As a fundamental problem in the computer
vision and graphics community, 3D works typically require multi-view captures
for per-case training, which severely limits their applicability of modeling
arbitrary characters in a short time. Recent 2D methods break this limitation
via pre-trained diffusion models, but they struggle for pose generality and
scene interaction. To this end, we propose MIMO, a novel framework which can
not only synthesize character videos with controllable attributes (i.e.,
character, motion and scene) provided by simple user inputs, but also
simultaneously achieve advanced scalability to arbitrary characters, generality
to novel 3D motions, and applicability to interactive real-world scenes in a
unified framework. The core idea is to encode the 2D video to compact spatial
codes, considering the inherent 3D nature of video occurrence. Concretely, we
lift the 2D frame pixels into 3D using monocular depth estimators, and
decompose the video clip to three spatial components (i.e., main human,
underlying scene, and floating occlusion) in hierarchical layers based on the
3D depth. These components are further encoded to canonical identity code,
structured motion code and full scene code, which are utilized as control
signals of synthesis process. The design of spatial decomposed modeling enables
flexible user control, complex motion expression, as well as 3D-aware synthesis
for scene interactions. Experimental results demonstrate effectiveness and
robustness of the proposed method.Summary
AI-Generated Summary