MIMO: Sintesi Video di Personaggi Controllabili con Modellazione Decomposta Spazialmente
MIMO: Controllable Character Video Synthesis with Spatial Decomposed Modeling
September 24, 2024
Autori: Yifang Men, Yuan Yao, Miaomiao Cui, Liefeng Bo
cs.AI
Abstract
La sintesi video dei personaggi mira a produrre video realistici di personaggi animabili all'interno di scene realistiche. Come problema fondamentale nella comunità della visione artificiale e della grafica, i lavori in 3D richiedono tipicamente catture multi-view per l'addestramento caso per caso, il che limita gravemente la loro capacità di modellare personaggi arbitrari in breve tempo. I metodi 2D recenti superano questa limitazione tramite modelli di diffusione pre-addestrati, ma faticano con la generalità delle pose e l'interazione con la scena. A questo scopo, proponiamo MIMO, un nuovo framework che non solo può sintetizzare video di personaggi con attributi controllabili (cioè, personaggio, movimento e scena) forniti da semplici input utente, ma può anche raggiungere contemporaneamente una scalabilità avanzata per personaggi arbitrari, generalità per nuovi movimenti in 3D e applicabilità a scene interattive del mondo reale in un framework unificato. L'idea principale è codificare il video 2D in codici spaziali compatti, considerando la natura intrinseca in 3D dell'occorrenza del video. Concretamente, eleviamo i pixel del frame 2D in 3D utilizzando stimatori di profondità monoculare e decomponiamo il video in tre componenti spaziali (cioè, principale umano, scena sottostante e occlusione fluttuante) in strati gerarchici basati sulla profondità in 3D. Queste componenti vengono ulteriormente codificate in codice di identità canonica, codice di movimento strutturato e codice di scena completa, che vengono utilizzati come segnali di controllo del processo di sintesi. Il design della modellazione spaziale decomposta consente un controllo flessibile da parte dell'utente, un'espressione di movimento complessa, nonché una sintesi consapevole del 3D per le interazioni della scena. I risultati sperimentali dimostrano l'efficacia e la robustezza del metodo proposto.
English
Character video synthesis aims to produce realistic videos of animatable
characters within lifelike scenes. As a fundamental problem in the computer
vision and graphics community, 3D works typically require multi-view captures
for per-case training, which severely limits their applicability of modeling
arbitrary characters in a short time. Recent 2D methods break this limitation
via pre-trained diffusion models, but they struggle for pose generality and
scene interaction. To this end, we propose MIMO, a novel framework which can
not only synthesize character videos with controllable attributes (i.e.,
character, motion and scene) provided by simple user inputs, but also
simultaneously achieve advanced scalability to arbitrary characters, generality
to novel 3D motions, and applicability to interactive real-world scenes in a
unified framework. The core idea is to encode the 2D video to compact spatial
codes, considering the inherent 3D nature of video occurrence. Concretely, we
lift the 2D frame pixels into 3D using monocular depth estimators, and
decompose the video clip to three spatial components (i.e., main human,
underlying scene, and floating occlusion) in hierarchical layers based on the
3D depth. These components are further encoded to canonical identity code,
structured motion code and full scene code, which are utilized as control
signals of synthesis process. The design of spatial decomposed modeling enables
flexible user control, complex motion expression, as well as 3D-aware synthesis
for scene interactions. Experimental results demonstrate effectiveness and
robustness of the proposed method.