MIMO : Synthèse vidéo de personnages contrôlables avec modélisation spatiale décomposée
MIMO: Controllable Character Video Synthesis with Spatial Decomposed Modeling
September 24, 2024
Auteurs: Yifang Men, Yuan Yao, Miaomiao Cui, Liefeng Bo
cs.AI
Résumé
La synthèse vidéo de personnages vise à produire des vidéos réalistes de personnages animables au sein de scènes réalistes. En tant que problème fondamental dans la communauté de la vision par ordinateur et des graphiques, les travaux en 3D nécessitent généralement des captures multi-vues pour un entraînement par cas, ce qui limite considérablement leur applicabilité pour la modélisation de personnages arbitraires en peu de temps. Les méthodes récentes en 2D brisent cette limitation via des modèles de diffusion pré-entraînés, mais elles rencontrent des difficultés en termes de généralité de pose et d'interaction de scène. À cet effet, nous proposons MIMO, un nouveau cadre qui peut non seulement synthétiser des vidéos de personnages avec des attributs contrôlables (c'est-à-dire, personnage, mouvement et scène) fournis par des entrées simples d'utilisateur, mais qui peut également simultanément atteindre une scalabilité avancée pour des personnages arbitraires, une généralité pour des mouvements 3D nouveaux, et une applicabilité aux scènes interactives du monde réel dans un cadre unifié. L'idée principale est d'encoder la vidéo 2D en codes spatiaux compacts, en tenant compte de la nature 3D inhérente à l'occurrence vidéo. Concrètement, nous élevons les pixels du cadre 2D en 3D en utilisant des estimateurs de profondeur monoculaire, et décomposons le clip vidéo en trois composantes spatiales (c'est-à-dire, humain principal, scène sous-jacente, et occlusion flottante) en couches hiérarchiques basées sur la profondeur 3D. Ces composantes sont ensuite encodées en code d'identité canonique, code de mouvement structuré et code de scène complet, qui sont utilisés comme signaux de contrôle du processus de synthèse. La conception de la modélisation spatiale décomposée permet un contrôle flexible de l'utilisateur, une expression de mouvement complexe, ainsi qu'une synthèse consciente de la 3D pour les interactions de scène. Les résultats expérimentaux démontrent l'efficacité et la robustesse de la méthode proposée.
English
Character video synthesis aims to produce realistic videos of animatable
characters within lifelike scenes. As a fundamental problem in the computer
vision and graphics community, 3D works typically require multi-view captures
for per-case training, which severely limits their applicability of modeling
arbitrary characters in a short time. Recent 2D methods break this limitation
via pre-trained diffusion models, but they struggle for pose generality and
scene interaction. To this end, we propose MIMO, a novel framework which can
not only synthesize character videos with controllable attributes (i.e.,
character, motion and scene) provided by simple user inputs, but also
simultaneously achieve advanced scalability to arbitrary characters, generality
to novel 3D motions, and applicability to interactive real-world scenes in a
unified framework. The core idea is to encode the 2D video to compact spatial
codes, considering the inherent 3D nature of video occurrence. Concretely, we
lift the 2D frame pixels into 3D using monocular depth estimators, and
decompose the video clip to three spatial components (i.e., main human,
underlying scene, and floating occlusion) in hierarchical layers based on the
3D depth. These components are further encoded to canonical identity code,
structured motion code and full scene code, which are utilized as control
signals of synthesis process. The design of spatial decomposed modeling enables
flexible user control, complex motion expression, as well as 3D-aware synthesis
for scene interactions. Experimental results demonstrate effectiveness and
robustness of the proposed method.Summary
AI-Generated Summary