GALA: Generazione di Asset Stratificati Animabili da una Singola Scansione
GALA: Generating Animatable Layered Assets from a Single Scan
January 23, 2024
Autori: Taeksoo Kim, Byungjun Kim, Shunsuke Saito, Hanbyul Joo
cs.AI
Abstract
Presentiamo GALA, un framework che prende in input una mesh 3D di un essere umano vestito a singolo strato e la scompone in asset 3D multi-strato completi. Gli output possono poi essere combinati con altri asset per creare nuovi avatar umani vestiti con qualsiasi posa. Gli approcci di ricostruzione esistenti spesso trattano gli esseri umani vestiti come un singolo strato di geometria, trascurando la composizione intrinseca di esseri umani con acconciature, abiti e accessori, limitando così l'utilità delle mesh per applicazioni a valle. Scomporre una mesh a singolo strato in strati separati è un compito impegnativo perché richiede la sintesi di geometria e texture plausibili per le regioni fortemente occluse. Inoltre, anche con una scomposizione riuscita, le mesh non sono normalizzate in termini di pose e forme del corpo, rendendo impossibile una composizione coerente con nuove identità e pose. Per affrontare queste sfide, proponiamo di sfruttare la conoscenza generale di un modello di diffusione 2D pre-addestrato come prior di geometria e aspetto per esseri umani e altri asset. Separiamo prima la mesh di input utilizzando la segmentazione della superficie 3D estratta da segmentazioni 2D multi-vista. Poi sintetizziamo la geometria mancante dei diversi strati sia nello spazio posato che in quello canonico utilizzando una nuova funzione di perdita Score Distillation Sampling (SDS) guidata dalla posa. Una volta completata l'inpainting della geometria 3D ad alta fedeltà, applichiamo la stessa perdita SDS alla sua texture per ottenere l'aspetto completo, incluse le regioni inizialmente occluse. Attraverso una serie di passaggi di scomposizione, otteniamo più strati di asset 3D in uno spazio canonico condiviso normalizzato in termini di pose e forme umane, supportando così una composizione senza sforzo con nuove identità e una rianimazione con nuove pose. I nostri esperimenti dimostrano l'efficacia del nostro approccio per i compiti di scomposizione, canonizzazione e composizione rispetto alle soluzioni esistenti.
English
We present GALA, a framework that takes as input a single-layer clothed 3D
human mesh and decomposes it into complete multi-layered 3D assets. The outputs
can then be combined with other assets to create novel clothed human avatars
with any pose. Existing reconstruction approaches often treat clothed humans as
a single-layer of geometry and overlook the inherent compositionality of humans
with hairstyles, clothing, and accessories, thereby limiting the utility of the
meshes for downstream applications. Decomposing a single-layer mesh into
separate layers is a challenging task because it requires the synthesis of
plausible geometry and texture for the severely occluded regions. Moreover,
even with successful decomposition, meshes are not normalized in terms of poses
and body shapes, failing coherent composition with novel identities and poses.
To address these challenges, we propose to leverage the general knowledge of a
pretrained 2D diffusion model as geometry and appearance prior for humans and
other assets. We first separate the input mesh using the 3D surface
segmentation extracted from multi-view 2D segmentations. Then we synthesize the
missing geometry of different layers in both posed and canonical spaces using a
novel pose-guided Score Distillation Sampling (SDS) loss. Once we complete
inpainting high-fidelity 3D geometry, we also apply the same SDS loss to its
texture to obtain the complete appearance including the initially occluded
regions. Through a series of decomposition steps, we obtain multiple layers of
3D assets in a shared canonical space normalized in terms of poses and human
shapes, hence supporting effortless composition to novel identities and
reanimation with novel poses. Our experiments demonstrate the effectiveness of
our approach for decomposition, canonicalization, and composition tasks
compared to existing solutions.