GALA: Generación de Activos Animables en Capas a partir de un Único Escaneo
GALA: Generating Animatable Layered Assets from a Single Scan
January 23, 2024
Autores: Taeksoo Kim, Byungjun Kim, Shunsuke Saito, Hanbyul Joo
cs.AI
Resumen
Presentamos GALA, un marco de trabajo que toma como entrada una malla 3D de un humano vestido de una sola capa y la descompone en activos 3D multicapa completos. Las salidas pueden luego combinarse con otros activos para crear nuevos avatares humanos vestidos con cualquier postura. Los enfoques de reconstrucción existentes a menudo tratan a los humanos vestidos como una geometría de una sola capa y pasan por alto la composición inherente de los humanos con peinados, ropa y accesorios, lo que limita la utilidad de las mallas para aplicaciones posteriores. Descomponer una malla de una sola capa en capas separadas es una tarea desafiante porque requiere la síntesis de geometría y textura plausibles para las regiones severamente ocluidas. Además, incluso con una descomposición exitosa, las mallas no están normalizadas en términos de posturas y formas corporales, lo que impide una composición coherente con nuevas identidades y posturas. Para abordar estos desafíos, proponemos aprovechar el conocimiento general de un modelo de difusión 2D preentrenado como prior de geometría y apariencia para humanos y otros activos. Primero separamos la malla de entrada utilizando la segmentación de superficie 3D extraída de segmentaciones 2D multivista. Luego sintetizamos la geometría faltante de diferentes capas tanto en espacios con postura como canónicos utilizando una nueva pérdida de Muestreo de Destilación de Puntaje (SDS) guiada por postura. Una vez que completamos la restauración de la geometría 3D de alta fidelidad, también aplicamos la misma pérdida SDS a su textura para obtener la apariencia completa, incluidas las regiones inicialmente ocluidas. A través de una serie de pasos de descomposición, obtenemos múltiples capas de activos 3D en un espacio canónico compartido normalizado en términos de posturas y formas humanas, lo que permite una composición sin esfuerzo con nuevas identidades y reanimación con nuevas posturas. Nuestros experimentos demuestran la efectividad de nuestro enfoque para tareas de descomposición, canonización y composición en comparación con las soluciones existentes.
English
We present GALA, a framework that takes as input a single-layer clothed 3D
human mesh and decomposes it into complete multi-layered 3D assets. The outputs
can then be combined with other assets to create novel clothed human avatars
with any pose. Existing reconstruction approaches often treat clothed humans as
a single-layer of geometry and overlook the inherent compositionality of humans
with hairstyles, clothing, and accessories, thereby limiting the utility of the
meshes for downstream applications. Decomposing a single-layer mesh into
separate layers is a challenging task because it requires the synthesis of
plausible geometry and texture for the severely occluded regions. Moreover,
even with successful decomposition, meshes are not normalized in terms of poses
and body shapes, failing coherent composition with novel identities and poses.
To address these challenges, we propose to leverage the general knowledge of a
pretrained 2D diffusion model as geometry and appearance prior for humans and
other assets. We first separate the input mesh using the 3D surface
segmentation extracted from multi-view 2D segmentations. Then we synthesize the
missing geometry of different layers in both posed and canonical spaces using a
novel pose-guided Score Distillation Sampling (SDS) loss. Once we complete
inpainting high-fidelity 3D geometry, we also apply the same SDS loss to its
texture to obtain the complete appearance including the initially occluded
regions. Through a series of decomposition steps, we obtain multiple layers of
3D assets in a shared canonical space normalized in terms of poses and human
shapes, hence supporting effortless composition to novel identities and
reanimation with novel poses. Our experiments demonstrate the effectiveness of
our approach for decomposition, canonicalization, and composition tasks
compared to existing solutions.