ChatPaper.aiChatPaper

MIMO: Síntese de Vídeo de Personagem Controlável com Modelagem Espacial Decomposta

MIMO: Controllable Character Video Synthesis with Spatial Decomposed Modeling

September 24, 2024
Autores: Yifang Men, Yuan Yao, Miaomiao Cui, Liefeng Bo
cs.AI

Resumo

A síntese de vídeo de personagens tem como objetivo produzir vídeos realistas de personagens animáveis dentro de cenas semelhantes à vida real. Como um problema fundamental na comunidade de visão computacional e gráficos, trabalhos em 3D geralmente requerem capturas de múltiplas vistas para treinamento por caso, o que limita severamente sua aplicabilidade na modelagem de personagens arbitrários em pouco tempo. Métodos recentes em 2D quebram essa limitação por meio de modelos de difusão pré-treinados, mas enfrentam dificuldades com a generalidade de pose e interação de cena. Nesse sentido, propomos o MIMO, um novo framework que não apenas pode sintetizar vídeos de personagens com atributos controláveis (ou seja, personagem, movimento e cena) fornecidos por entradas simples do usuário, mas também alcançar simultaneamente escalabilidade avançada para personagens arbitrários, generalidade para novos movimentos em 3D e aplicabilidade a cenas interativas do mundo real em um framework unificado. A ideia central é codificar o vídeo 2D em códigos espaciais compactos, considerando a natureza inerentemente 3D da ocorrência de vídeo. Concretamente, elevamos os pixels do quadro 2D para 3D usando estimadores de profundidade monocular e decompondo o clipe de vídeo em três componentes espaciais (ou seja, humano principal, cena subjacente e oclusão flutuante) em camadas hierárquicas com base na profundidade 3D. Esses componentes são posteriormente codificados em códigos de identidade canônica, códigos de movimento estruturado e código de cena completa, que são utilizados como sinais de controle do processo de síntese. O design da modelagem espacial decomposta permite controle flexível do usuário, expressão de movimento complexa, bem como síntese consciente em 3D para interações de cena. Resultados experimentais demonstram a eficácia e robustez do método proposto.
English
Character video synthesis aims to produce realistic videos of animatable characters within lifelike scenes. As a fundamental problem in the computer vision and graphics community, 3D works typically require multi-view captures for per-case training, which severely limits their applicability of modeling arbitrary characters in a short time. Recent 2D methods break this limitation via pre-trained diffusion models, but they struggle for pose generality and scene interaction. To this end, we propose MIMO, a novel framework which can not only synthesize character videos with controllable attributes (i.e., character, motion and scene) provided by simple user inputs, but also simultaneously achieve advanced scalability to arbitrary characters, generality to novel 3D motions, and applicability to interactive real-world scenes in a unified framework. The core idea is to encode the 2D video to compact spatial codes, considering the inherent 3D nature of video occurrence. Concretely, we lift the 2D frame pixels into 3D using monocular depth estimators, and decompose the video clip to three spatial components (i.e., main human, underlying scene, and floating occlusion) in hierarchical layers based on the 3D depth. These components are further encoded to canonical identity code, structured motion code and full scene code, which are utilized as control signals of synthesis process. The design of spatial decomposed modeling enables flexible user control, complex motion expression, as well as 3D-aware synthesis for scene interactions. Experimental results demonstrate effectiveness and robustness of the proposed method.

Summary

AI-Generated Summary

PDF342November 16, 2024