MIMO: Steuerbare Charakter-Video-Synthese mit räumlich zerlegtem Modellieren
MIMO: Controllable Character Video Synthesis with Spatial Decomposed Modeling
September 24, 2024
Autoren: Yifang Men, Yuan Yao, Miaomiao Cui, Liefeng Bo
cs.AI
Zusammenfassung
Die Synthese von Charaktervideos zielt darauf ab, realistische Videos von animierbaren Charakteren in lebensechten Szenen zu erstellen. Als grundlegendes Problem in der Computer Vision und Grafik-Community erfordern 3D-Arbeiten typischerweise Multi-View-Aufnahmen für das Falltraining, was ihre Anwendbarkeit bei der Modellierung beliebiger Charaktere in kurzer Zeit stark einschränkt. Aktuelle 2D-Methoden überwinden diese Einschränkung mithilfe vorab trainierter Diffusionsmodelle, kämpfen jedoch mit Pose-Allgemeinheit und Szeneninteraktion. Zu diesem Zweck schlagen wir MIMO vor, ein neuartiges Framework, das nicht nur Charaktervideos mit steuerbaren Attributen (d.h. Charakter, Bewegung und Szene), die durch einfache Benutzereingaben bereitgestellt werden, synthetisieren kann, sondern auch gleichzeitig eine fortschrittliche Skalierbarkeit für beliebige Charaktere, Allgemeinheit für neue 3D-Bewegungen und Anwendbarkeit für interaktive Szenen in der realen Welt in einem einheitlichen Rahmen erreichen kann. Die Kernidee besteht darin, das 2D-Video in kompakte räumliche Codes zu codieren, unter Berücksichtigung der inhärenten 3D-Natur des Videoauftretens. Konkret heben wir die 2D-Bildpixel in 3D mithilfe monokularer Tiefenschätzer an und zerlegen den Videoclip in drei räumliche Komponenten (d.h. Hauptmensch, zugrunde liegende Szene und schwebende Okklusion) in hierarchischen Schichten basierend auf der 3D-Tiefe. Diese Komponenten werden weiter in kanonische Identitätscode, strukturierten Bewegungscode und vollständigen Szenencode codiert, die als Steuersignale des Syntheseprozesses verwendet werden. Das Design des räumlich zerlegten Modellierens ermöglicht eine flexible Benutzersteuerung, komplexe Bewegungsausdrücke sowie eine 3D-bewusste Synthese für Szeneninteraktionen. Experimentelle Ergebnisse zeigen die Wirksamkeit und Robustheit der vorgeschlagenen Methode.
English
Character video synthesis aims to produce realistic videos of animatable
characters within lifelike scenes. As a fundamental problem in the computer
vision and graphics community, 3D works typically require multi-view captures
for per-case training, which severely limits their applicability of modeling
arbitrary characters in a short time. Recent 2D methods break this limitation
via pre-trained diffusion models, but they struggle for pose generality and
scene interaction. To this end, we propose MIMO, a novel framework which can
not only synthesize character videos with controllable attributes (i.e.,
character, motion and scene) provided by simple user inputs, but also
simultaneously achieve advanced scalability to arbitrary characters, generality
to novel 3D motions, and applicability to interactive real-world scenes in a
unified framework. The core idea is to encode the 2D video to compact spatial
codes, considering the inherent 3D nature of video occurrence. Concretely, we
lift the 2D frame pixels into 3D using monocular depth estimators, and
decompose the video clip to three spatial components (i.e., main human,
underlying scene, and floating occlusion) in hierarchical layers based on the
3D depth. These components are further encoded to canonical identity code,
structured motion code and full scene code, which are utilized as control
signals of synthesis process. The design of spatial decomposed modeling enables
flexible user control, complex motion expression, as well as 3D-aware synthesis
for scene interactions. Experimental results demonstrate effectiveness and
robustness of the proposed method.Summary
AI-Generated Summary