MIMO: Steuerbare Charakter-Video-Synthese mit räumlich zerlegtem Modellieren

papers.abstract

Die Synthese von Charaktervideos zielt darauf ab, realistische Videos von animierbaren Charakteren in lebensechten Szenen zu erstellen. Als grundlegendes Problem in der Computer Vision und Grafik-Community erfordern 3D-Arbeiten typischerweise Multi-View-Aufnahmen für das Falltraining, was ihre Anwendbarkeit bei der Modellierung beliebiger Charaktere in kurzer Zeit stark einschränkt. Aktuelle 2D-Methoden überwinden diese Einschränkung mithilfe vorab trainierter Diffusionsmodelle, kämpfen jedoch mit Pose-Allgemeinheit und Szeneninteraktion. Zu diesem Zweck schlagen wir MIMO vor, ein neuartiges Framework, das nicht nur Charaktervideos mit steuerbaren Attributen (d.h. Charakter, Bewegung und Szene), die durch einfache Benutzereingaben bereitgestellt werden, synthetisieren kann, sondern auch gleichzeitig eine fortschrittliche Skalierbarkeit für beliebige Charaktere, Allgemeinheit für neue 3D-Bewegungen und Anwendbarkeit für interaktive Szenen in der realen Welt in einem einheitlichen Rahmen erreichen kann. Die Kernidee besteht darin, das 2D-Video in kompakte räumliche Codes zu codieren, unter Berücksichtigung der inhärenten 3D-Natur des Videoauftretens. Konkret heben wir die 2D-Bildpixel in 3D mithilfe monokularer Tiefenschätzer an und zerlegen den Videoclip in drei räumliche Komponenten (d.h. Hauptmensch, zugrunde liegende Szene und schwebende Okklusion) in hierarchischen Schichten basierend auf der 3D-Tiefe. Diese Komponenten werden weiter in kanonische Identitätscode, strukturierten Bewegungscode und vollständigen Szenencode codiert, die als Steuersignale des Syntheseprozesses verwendet werden. Das Design des räumlich zerlegten Modellierens ermöglicht eine flexible Benutzersteuerung, komplexe Bewegungsausdrücke sowie eine 3D-bewusste Synthese für Szeneninteraktionen. Experimentelle Ergebnisse zeigen die Wirksamkeit und Robustheit der vorgeschlagenen Methode.

English

Character video synthesis aims to produce realistic videos of animatable characters within lifelike scenes. As a fundamental problem in the computer vision and graphics community, 3D works typically require multi-view captures for per-case training, which severely limits their applicability of modeling arbitrary characters in a short time. Recent 2D methods break this limitation via pre-trained diffusion models, but they struggle for pose generality and scene interaction. To this end, we propose MIMO, a novel framework which can not only synthesize character videos with controllable attributes (i.e., character, motion and scene) provided by simple user inputs, but also simultaneously achieve advanced scalability to arbitrary characters, generality to novel 3D motions, and applicability to interactive real-world scenes in a unified framework. The core idea is to encode the 2D video to compact spatial codes, considering the inherent 3D nature of video occurrence. Concretely, we lift the 2D frame pixels into 3D using monocular depth estimators, and decompose the video clip to three spatial components (i.e., main human, underlying scene, and floating occlusion) in hierarchical layers based on the 3D depth. These components are further encoded to canonical identity code, structured motion code and full scene code, which are utilized as control signals of synthesis process. The design of spatial decomposed modeling enables flexible user control, complex motion expression, as well as 3D-aware synthesis for scene interactions. Experimental results demonstrate effectiveness and robustness of the proposed method.

MIMO: Steuerbare Charakter-Video-Synthese mit räumlich zerlegtem Modellieren

MIMO: Controllable Character Video Synthesis with Spatial Decomposed Modeling

papers.abstract

Support