GALA: Het genereren van animeerbare gelaagde assets vanuit een enkele scan
GALA: Generating Animatable Layered Assets from a Single Scan
January 23, 2024
Auteurs: Taeksoo Kim, Byungjun Kim, Shunsuke Saito, Hanbyul Joo
cs.AI
Samenvatting
We presenteren GALA, een framework dat als invoer een enkellaagse geklede 3D-menselijke mesh neemt en deze ontleedt in complete meerlaagse 3D-assets. De uitvoer kan vervolgens worden gecombineerd met andere assets om nieuwe geklede menselijke avatars te creëren met elke gewenste pose. Bestaande reconstructiebenaderingen behandelen geklede mensen vaak als een enkele laag geometrie en negeren de inherente samenstelling van mensen met kapsels, kleding en accessoires, waardoor het nut van de meshes voor downstream-toepassingen wordt beperkt. Het ontleden van een enkellaagse mesh in afzonderlijke lagen is een uitdagende taak omdat het de synthese van plausibele geometrie en textuur vereist voor de ernstig verborgen regio's. Bovendien zijn meshes, zelfs bij succesvolle ontleding, niet genormaliseerd wat betreft poses en lichaamsvormen, wat een coherente samenstelling met nieuwe identiteiten en poses verhindert. Om deze uitdagingen aan te pakken, stellen we voor om de algemene kennis van een voorgetraind 2D-diffusiemodel te benutten als geometrie- en uiterlijk-prior voor mensen en andere assets. We scheiden eerst de invoer-mesh met behulp van de 3D-oppervlaktesegmentatie die is geëxtraheerd uit multi-view 2D-segmentaties. Vervolgens synthetiseren we de ontbrekende geometrie van verschillende lagen in zowel geposeerde als canonieke ruimtes met behulp van een nieuwe pose-geleide Score Distillation Sampling (SDS)-verliesfunctie. Zodra we het inpainten van hoogwaardige 3D-geometrie hebben voltooid, passen we dezelfde SDS-verliesfunctie ook toe op de textuur om het complete uiterlijk te verkrijgen, inclusief de aanvankelijk verborgen regio's. Door een reeks ontledingsstappen verkrijgen we meerdere lagen van 3D-assets in een gedeelde canonieke ruimte die genormaliseerd zijn wat betreft poses en menselijke vormen, waardoor moeiteloze samenstelling met nieuwe identiteiten en heranimatie met nieuwe poses mogelijk wordt. Onze experimenten tonen de effectiviteit van onze aanpak aan voor ontledings-, canonisatie- en samenstellingstaken in vergelijking met bestaande oplossingen.
English
We present GALA, a framework that takes as input a single-layer clothed 3D
human mesh and decomposes it into complete multi-layered 3D assets. The outputs
can then be combined with other assets to create novel clothed human avatars
with any pose. Existing reconstruction approaches often treat clothed humans as
a single-layer of geometry and overlook the inherent compositionality of humans
with hairstyles, clothing, and accessories, thereby limiting the utility of the
meshes for downstream applications. Decomposing a single-layer mesh into
separate layers is a challenging task because it requires the synthesis of
plausible geometry and texture for the severely occluded regions. Moreover,
even with successful decomposition, meshes are not normalized in terms of poses
and body shapes, failing coherent composition with novel identities and poses.
To address these challenges, we propose to leverage the general knowledge of a
pretrained 2D diffusion model as geometry and appearance prior for humans and
other assets. We first separate the input mesh using the 3D surface
segmentation extracted from multi-view 2D segmentations. Then we synthesize the
missing geometry of different layers in both posed and canonical spaces using a
novel pose-guided Score Distillation Sampling (SDS) loss. Once we complete
inpainting high-fidelity 3D geometry, we also apply the same SDS loss to its
texture to obtain the complete appearance including the initially occluded
regions. Through a series of decomposition steps, we obtain multiple layers of
3D assets in a shared canonical space normalized in terms of poses and human
shapes, hence supporting effortless composition to novel identities and
reanimation with novel poses. Our experiments demonstrate the effectiveness of
our approach for decomposition, canonicalization, and composition tasks
compared to existing solutions.