Generazione efficiente di umani articolati 3D con volumi di superficie stratificati
Efficient 3D Articulated Human Generation with Layered Surface Volumes
July 11, 2023
Autori: Yinghao Xu, Wang Yifan, Alexander W. Bergman, Menglei Chai, Bolei Zhou, Gordon Wetzstein
cs.AI
Abstract
L'accesso a risorse digitali di alta qualità e diversificate per umani articolati in 3D è fondamentale in varie applicazioni, che spaziano dalla realtà virtuale alle piattaforme social. Gli approcci generativi, come le reti generative avversarie (GAN) 3D, stanno rapidamente sostituendo gli strumenti di creazione manuale di contenuti, spesso laboriosi. Tuttavia, i framework esistenti di GAN 3D si basano tipicamente su rappresentazioni di scene che utilizzano mesh template, che sono veloci ma offrono una qualità limitata, o volumi, che offrono un'elevata capacità ma sono lenti da renderizzare, limitando così la fedeltà 3D nelle impostazioni GAN. In questo lavoro, introduciamo i volumi di superficie stratificati (LSV) come nuova rappresentazione di oggetti 3D per umani digitali articolati. Gli LSV rappresentano un corpo umano utilizzando più strati di mesh texturizzati attorno a un template convenzionale. Questi strati vengono renderizzati utilizzando la composizione alfa con rasterizzazione differenziabile veloce e possono essere interpretati come una rappresentazione volumetrica che assegna la propria capacità a una varietà di spessore finito attorno al template. A differenza dei template a singolo strato convenzionali, che faticano a rappresentare dettagli fini fuori dalla superficie come capelli o accessori, i nostri volumi di superficie catturano naturalmente tali dettagli. Gli LSV possono essere articolati e mostrano un'efficienza eccezionale nelle impostazioni GAN, dove un generatore 2D impara a sintetizzare le texture RGBA per i singoli strati. Addestrato su dataset di immagini 2D non strutturate e a singola vista, il nostro LSV-GAN genera umani digitali articolati in 3D di alta qualità e coerenti nella visualizzazione, senza la necessità di reti di upsampling 2D incoerenti nella vista.
English
Access to high-quality and diverse 3D articulated digital human assets is
crucial in various applications, ranging from virtual reality to social
platforms. Generative approaches, such as 3D generative adversarial networks
(GANs), are rapidly replacing laborious manual content creation tools. However,
existing 3D GAN frameworks typically rely on scene representations that
leverage either template meshes, which are fast but offer limited quality, or
volumes, which offer high capacity but are slow to render, thereby limiting the
3D fidelity in GAN settings. In this work, we introduce layered surface volumes
(LSVs) as a new 3D object representation for articulated digital humans. LSVs
represent a human body using multiple textured mesh layers around a
conventional template. These layers are rendered using alpha compositing with
fast differentiable rasterization, and they can be interpreted as a volumetric
representation that allocates its capacity to a manifold of finite thickness
around the template. Unlike conventional single-layer templates that struggle
with representing fine off-surface details like hair or accessories, our
surface volumes naturally capture such details. LSVs can be articulated, and
they exhibit exceptional efficiency in GAN settings, where a 2D generator
learns to synthesize the RGBA textures for the individual layers. Trained on
unstructured, single-view 2D image datasets, our LSV-GAN generates high-quality
and view-consistent 3D articulated digital humans without the need for
view-inconsistent 2D upsampling networks.