GALA: Erzeugung animierbarer geschichteter Assets aus einem einzelnen Scan
GALA: Generating Animatable Layered Assets from a Single Scan
January 23, 2024
Autoren: Taeksoo Kim, Byungjun Kim, Shunsuke Saito, Hanbyul Joo
cs.AI
Zusammenfassung
Wir stellen GALA vor, ein Framework, das als Eingabe ein einlagiges, bekleidetes 3D-Menschmodell nimmt und es in vollständige, mehrlagige 3D-Assets zerlegt. Die Ausgaben können dann mit anderen Assets kombiniert werden, um neuartige, bekleidete menschliche Avatare mit beliebigen Posen zu erstellen. Bestehende Rekonstruktionsansätze behandeln bekleidete Menschen oft als einlagige Geometrie und übersehen die inhärente Kompositionalität von Menschen mit Frisuren, Kleidung und Accessoires, wodurch die Nützlichkeit der Modelle für nachgelagerte Anwendungen eingeschränkt wird. Die Zerlegung eines einlagigen Modells in separate Schichten ist eine anspruchsvolle Aufgabe, da sie die Synthese plausibler Geometrie und Textur für stark verdeckte Regionen erfordert. Darüber hinaus sind Modelle selbst bei erfolgreicher Zerlegung nicht in Bezug auf Posen und Körperformen normalisiert, was eine kohärente Komposition mit neuen Identitäten und Posen verhindert. Um diese Herausforderungen zu bewältigen, schlagen wir vor, das allgemeine Wissen eines vortrainierten 2D-Diffusionsmodells als Geometrie- und Erscheinungs-Prior für Menschen und andere Assets zu nutzen. Wir trennen zunächst das Eingabemodell mithilfe der 3D-Oberflächensegmentierung, die aus multiview 2D-Segmentierungen extrahiert wird. Anschließend synthetisieren wir die fehlende Geometrie der verschiedenen Schichten sowohl im posierten als auch im kanonischen Raum unter Verwendung eines neuartigen pose-geführten Score Distillation Sampling (SDS)-Verlusts. Nachdem wir die hochauflösende 3D-Geometrie vervollständigt haben, wenden wir denselben SDS-Verlust auch auf die Textur an, um das vollständige Erscheinungsbild einschließlich der ursprünglich verdeckten Regionen zu erhalten. Durch eine Reihe von Zerlegungsschritten erhalten wir mehrere Schichten von 3D-Assets in einem gemeinsamen kanonischen Raum, der in Bezug auf Posen und menschliche Formen normalisiert ist, wodurch eine mühelose Komposition zu neuen Identitäten und die Reanimation mit neuen Posen unterstützt wird. Unsere Experimente demonstrieren die Effektivität unseres Ansatzes für Zerlegungs-, Kanonisierungs- und Kompositionsaufgaben im Vergleich zu bestehenden Lösungen.
English
We present GALA, a framework that takes as input a single-layer clothed 3D
human mesh and decomposes it into complete multi-layered 3D assets. The outputs
can then be combined with other assets to create novel clothed human avatars
with any pose. Existing reconstruction approaches often treat clothed humans as
a single-layer of geometry and overlook the inherent compositionality of humans
with hairstyles, clothing, and accessories, thereby limiting the utility of the
meshes for downstream applications. Decomposing a single-layer mesh into
separate layers is a challenging task because it requires the synthesis of
plausible geometry and texture for the severely occluded regions. Moreover,
even with successful decomposition, meshes are not normalized in terms of poses
and body shapes, failing coherent composition with novel identities and poses.
To address these challenges, we propose to leverage the general knowledge of a
pretrained 2D diffusion model as geometry and appearance prior for humans and
other assets. We first separate the input mesh using the 3D surface
segmentation extracted from multi-view 2D segmentations. Then we synthesize the
missing geometry of different layers in both posed and canonical spaces using a
novel pose-guided Score Distillation Sampling (SDS) loss. Once we complete
inpainting high-fidelity 3D geometry, we also apply the same SDS loss to its
texture to obtain the complete appearance including the initially occluded
regions. Through a series of decomposition steps, we obtain multiple layers of
3D assets in a shared canonical space normalized in terms of poses and human
shapes, hence supporting effortless composition to novel identities and
reanimation with novel poses. Our experiments demonstrate the effectiveness of
our approach for decomposition, canonicalization, and composition tasks
compared to existing solutions.