Efficiënte 3D-gearticuleerde menselijke generatie met gelaagde oppervlaktevolumes
Efficient 3D Articulated Human Generation with Layered Surface Volumes
July 11, 2023
Auteurs: Yinghao Xu, Wang Yifan, Alexander W. Bergman, Menglei Chai, Bolei Zhou, Gordon Wetzstein
cs.AI
Samenvatting
Toegang tot hoogwaardige en diverse 3D-gearticuleerde digitale menselijke assets is cruciaal in verschillende toepassingen, variërend van virtual reality tot sociale platforms. Generatieve benaderingen, zoals 3D-generatieve adversariële netwerken (GANs), vervangen snel arbeidsintensieve handmatige contentcreatietools. Bestaande 3D-GAN-frameworks zijn echter doorgaans gebaseerd op scène-representaties die gebruikmaken van sjabloonmazen, die snel zijn maar beperkte kwaliteit bieden, of volumes, die een hoge capaciteit bieden maar traag zijn om te renderen, waardoor de 3D-nauwkeurigheid in GAN-instellingen wordt beperkt. In dit werk introduceren we gelaagde oppervlaktevolumes (LSVs) als een nieuwe 3D-objectrepresentatie voor gearticuleerde digitale mensen. LSVs representeren een menselijk lichaam met behulp van meerdere getextureerde maaslagen rond een conventioneel sjabloon. Deze lagen worden gerenderd met behulp van alpha-compositing met snelle differentieerbare rasterisatie, en ze kunnen worden geïnterpreteerd als een volumetrische representatie die zijn capaciteit toewijst aan een variëteit van eindige dikte rond het sjabloon. In tegenstelling tot conventionele enkellaagssjablonen die moeite hebben met het weergeven van fijne details buiten het oppervlak, zoals haar of accessoires, vangen onze oppervlaktevolumes dergelijke details van nature vast. LSVs kunnen worden gearticuleerd en vertonen uitzonderlijke efficiëntie in GAN-instellingen, waarbij een 2D-generator leert om de RGBA-texturen voor de individuele lagen te synthetiseren. Getraind op ongestructureerde, enkelvoudige 2D-beelddatasets, genereert onze LSV-GAN hoogwaardige en consistent weergegeven 3D-gearticuleerde digitale mensen zonder de noodzaak van inconsistente 2D-upsamplingnetwerken.
English
Access to high-quality and diverse 3D articulated digital human assets is
crucial in various applications, ranging from virtual reality to social
platforms. Generative approaches, such as 3D generative adversarial networks
(GANs), are rapidly replacing laborious manual content creation tools. However,
existing 3D GAN frameworks typically rely on scene representations that
leverage either template meshes, which are fast but offer limited quality, or
volumes, which offer high capacity but are slow to render, thereby limiting the
3D fidelity in GAN settings. In this work, we introduce layered surface volumes
(LSVs) as a new 3D object representation for articulated digital humans. LSVs
represent a human body using multiple textured mesh layers around a
conventional template. These layers are rendered using alpha compositing with
fast differentiable rasterization, and they can be interpreted as a volumetric
representation that allocates its capacity to a manifold of finite thickness
around the template. Unlike conventional single-layer templates that struggle
with representing fine off-surface details like hair or accessories, our
surface volumes naturally capture such details. LSVs can be articulated, and
they exhibit exceptional efficiency in GAN settings, where a 2D generator
learns to synthesize the RGBA textures for the individual layers. Trained on
unstructured, single-view 2D image datasets, our LSV-GAN generates high-quality
and view-consistent 3D articulated digital humans without the need for
view-inconsistent 2D upsampling networks.