GALA : Génération d'actifs animables en couches à partir d'une seule numérisation
GALA: Generating Animatable Layered Assets from a Single Scan
January 23, 2024
papers.authors: Taeksoo Kim, Byungjun Kim, Shunsuke Saito, Hanbyul Joo
cs.AI
papers.abstract
Nous présentons GALA, un cadre qui prend en entrée un maillage 3D habillé d'un humain à une seule couche et le décompose en actifs 3D multicouches complets. Les sorties peuvent ensuite être combinées avec d'autres actifs pour créer de nouveaux avatars humains habillés dans n'importe quelle pose. Les approches de reconstruction existantes traitent souvent les humains habillés comme une géométrie à une seule couche et négligent la compositionnalité inhérente des humains avec leurs coiffures, vêtements et accessoires, limitant ainsi l'utilité des maillages pour les applications en aval. Décomposer un maillage à une seule couche en couches séparées est une tâche complexe car elle nécessite la synthèse d'une géométrie et d'une texture plausibles pour les régions fortement occluses. De plus, même avec une décomposition réussie, les maillages ne sont pas normalisés en termes de poses et de formes corporelles, ce qui empêche une composition cohérente avec de nouvelles identités et poses. Pour relever ces défis, nous proposons d'exploiter les connaissances générales d'un modèle de diffusion 2D préentraîné comme a priori de géométrie et d'apparence pour les humains et autres actifs. Nous séparons d'abord le maillage d'entrée en utilisant la segmentation de surface 3D extraite à partir de segmentations 2D multivues. Ensuite, nous synthétisons la géométrie manquante des différentes couches dans les espaces posés et canoniques en utilisant une nouvelle fonction de perte de Score Distillation Sampling (SDS) guidée par la pose. Une fois la géométrie 3D haute fidélité complétée par inpainting, nous appliquons également la même perte SDS à sa texture pour obtenir l'apparence complète, y compris les régions initialement occluses. À travers une série d'étapes de décomposition, nous obtenons plusieurs couches d'actifs 3D dans un espace canonique partagé, normalisé en termes de poses et de formes humaines, permettant ainsi une composition aisée avec de nouvelles identités et une réanimation avec de nouvelles poses. Nos expériences démontrent l'efficacité de notre approche pour les tâches de décomposition, de canonicalisation et de composition par rapport aux solutions existantes.
English
We present GALA, a framework that takes as input a single-layer clothed 3D
human mesh and decomposes it into complete multi-layered 3D assets. The outputs
can then be combined with other assets to create novel clothed human avatars
with any pose. Existing reconstruction approaches often treat clothed humans as
a single-layer of geometry and overlook the inherent compositionality of humans
with hairstyles, clothing, and accessories, thereby limiting the utility of the
meshes for downstream applications. Decomposing a single-layer mesh into
separate layers is a challenging task because it requires the synthesis of
plausible geometry and texture for the severely occluded regions. Moreover,
even with successful decomposition, meshes are not normalized in terms of poses
and body shapes, failing coherent composition with novel identities and poses.
To address these challenges, we propose to leverage the general knowledge of a
pretrained 2D diffusion model as geometry and appearance prior for humans and
other assets. We first separate the input mesh using the 3D surface
segmentation extracted from multi-view 2D segmentations. Then we synthesize the
missing geometry of different layers in both posed and canonical spaces using a
novel pose-guided Score Distillation Sampling (SDS) loss. Once we complete
inpainting high-fidelity 3D geometry, we also apply the same SDS loss to its
texture to obtain the complete appearance including the initially occluded
regions. Through a series of decomposition steps, we obtain multiple layers of
3D assets in a shared canonical space normalized in terms of poses and human
shapes, hence supporting effortless composition to novel identities and
reanimation with novel poses. Our experiments demonstrate the effectiveness of
our approach for decomposition, canonicalization, and composition tasks
compared to existing solutions.