MIMO: Controleerbare karakter video synthese met ruimtelijk gedecomposeerd modelleren
MIMO: Controllable Character Video Synthesis with Spatial Decomposed Modeling
September 24, 2024
Auteurs: Yifang Men, Yuan Yao, Miaomiao Cui, Liefeng Bo
cs.AI
Samenvatting
Karakter video synthese heeft als doel realistische video's van animeerbare karakters te produceren binnen levensechte scènes. Als een fundamenteel probleem in de computer vision en grafische gemeenschap, vereisen 3D werken typisch multi-view opnames voor per-geval training, wat hun toepasbaarheid bij het modelleren van willekeurige karakters in korte tijd ernstig beperkt. Recente 2D methoden doorbreken deze beperking via vooraf getrainde diffusiemodellen, maar ze hebben moeite met houdingsgeneraliteit en scène-interactie. Om dit te verhelpen, stellen we MIMO voor, een nieuw raamwerk dat niet alleen karaktervideo's kan synthetiseren met controleerbare eigenschappen (d.w.z. karakter, beweging en scène) die worden geleverd door eenvoudige gebruikersinvoer, maar ook tegelijkertijd geavanceerde schaalbaarheid naar willekeurige karakters, generaliteit naar nieuwe 3D bewegingen, en toepasbaarheid op interactieve real-world scènes kan bereiken in een verenigd raamwerk. Het kernidee is om de 2D video te encoderen naar compacte ruimtelijke codes, rekening houdend met de inherente 3D aard van video-gebeurtenissen. Concreet tillen we de 2D framepixels op naar 3D met behulp van monoculaire diepteschatting, en decomponeren we de videoclip naar drie ruimtelijke componenten (d.w.z. hoofdige mens, onderliggende scène, en zwevende occlusie) in hiërarchische lagen op basis van de 3D diepte. Deze componenten worden verder gecodeerd naar canonieke identiteitscode, gestructureerde bewegingscode en volledige scène code, die worden gebruikt als controle signalen van het synthese proces. Het ontwerp van ruimtelijk gedecomposeerde modellering maakt flexibele gebruikerscontrole, complexe bewegingsuitdrukking, evenals 3D-bewuste synthese voor scène-interacties mogelijk. Experimentele resultaten tonen de effectiviteit en robuustheid van de voorgestelde methode aan.
English
Character video synthesis aims to produce realistic videos of animatable
characters within lifelike scenes. As a fundamental problem in the computer
vision and graphics community, 3D works typically require multi-view captures
for per-case training, which severely limits their applicability of modeling
arbitrary characters in a short time. Recent 2D methods break this limitation
via pre-trained diffusion models, but they struggle for pose generality and
scene interaction. To this end, we propose MIMO, a novel framework which can
not only synthesize character videos with controllable attributes (i.e.,
character, motion and scene) provided by simple user inputs, but also
simultaneously achieve advanced scalability to arbitrary characters, generality
to novel 3D motions, and applicability to interactive real-world scenes in a
unified framework. The core idea is to encode the 2D video to compact spatial
codes, considering the inherent 3D nature of video occurrence. Concretely, we
lift the 2D frame pixels into 3D using monocular depth estimators, and
decompose the video clip to three spatial components (i.e., main human,
underlying scene, and floating occlusion) in hierarchical layers based on the
3D depth. These components are further encoded to canonical identity code,
structured motion code and full scene code, which are utilized as control
signals of synthesis process. The design of spatial decomposed modeling enables
flexible user control, complex motion expression, as well as 3D-aware synthesis
for scene interactions. Experimental results demonstrate effectiveness and
robustness of the proposed method.Summary
AI-Generated Summary