ChatPaper.aiChatPaper

MIMO: Síntesis de Video de Personajes Controlables con Modelado Espacial Descompuesto

MIMO: Controllable Character Video Synthesis with Spatial Decomposed Modeling

September 24, 2024
Autores: Yifang Men, Yuan Yao, Miaomiao Cui, Liefeng Bo
cs.AI

Resumen

La síntesis de video de personajes tiene como objetivo producir videos realistas de personajes animables dentro de escenas realistas. Como un problema fundamental en la comunidad de visión por computadora y gráficos, los trabajos en 3D típicamente requieren capturas de múltiples vistas para el entrenamiento por caso, lo que limita severamente su aplicabilidad para modelar personajes arbitrarios en poco tiempo. Métodos recientes en 2D rompen esta limitación a través de modelos de difusión pre-entrenados, pero tienen dificultades con la generalidad de posturas y la interacción con escenas. Con este fin, proponemos MIMO, un nuevo marco que no solo puede sintetizar videos de personajes con atributos controlables (es decir, personaje, movimiento y escena) proporcionados por simples entradas de usuario, sino que también logra simultáneamente una escalabilidad avanzada a personajes arbitrarios, generalidad para movimientos 3D novedosos y aplicabilidad a escenas interactivas del mundo real en un marco unificado. La idea principal es codificar el video 2D en códigos espaciales compactos, considerando la naturaleza 3D inherente de la ocurrencia del video. Concretamente, elevamos los píxeles del fotograma 2D a 3D utilizando estimadores de profundidad monoculares, y descomponemos el clip de video en tres componentes espaciales (es decir, humano principal, escena subyacente y oclusión flotante) en capas jerárquicas basadas en la profundidad 3D. Estos componentes se codifican aún más en un código de identidad canónica, un código de movimiento estructurado y un código de escena completo, que se utilizan como señales de control del proceso de síntesis. El diseño de modelado espacial descompuesto permite un control flexible por parte del usuario, una expresión de movimiento compleja, así como una síntesis consciente de 3D para interacciones de escena. Los resultados experimentales demuestran la efectividad y robustez del método propuesto.
English
Character video synthesis aims to produce realistic videos of animatable characters within lifelike scenes. As a fundamental problem in the computer vision and graphics community, 3D works typically require multi-view captures for per-case training, which severely limits their applicability of modeling arbitrary characters in a short time. Recent 2D methods break this limitation via pre-trained diffusion models, but they struggle for pose generality and scene interaction. To this end, we propose MIMO, a novel framework which can not only synthesize character videos with controllable attributes (i.e., character, motion and scene) provided by simple user inputs, but also simultaneously achieve advanced scalability to arbitrary characters, generality to novel 3D motions, and applicability to interactive real-world scenes in a unified framework. The core idea is to encode the 2D video to compact spatial codes, considering the inherent 3D nature of video occurrence. Concretely, we lift the 2D frame pixels into 3D using monocular depth estimators, and decompose the video clip to three spatial components (i.e., main human, underlying scene, and floating occlusion) in hierarchical layers based on the 3D depth. These components are further encoded to canonical identity code, structured motion code and full scene code, which are utilized as control signals of synthesis process. The design of spatial decomposed modeling enables flexible user control, complex motion expression, as well as 3D-aware synthesis for scene interactions. Experimental results demonstrate effectiveness and robustness of the proposed method.

Summary

AI-Generated Summary

PDF342November 16, 2024