Generación eficiente de humanos articulados en 3D con volúmenes de superficie en capas
Efficient 3D Articulated Human Generation with Layered Surface Volumes
July 11, 2023
Autores: Yinghao Xu, Wang Yifan, Alexander W. Bergman, Menglei Chai, Bolei Zhou, Gordon Wetzstein
cs.AI
Resumen
El acceso a activos digitales de humanos articulados en 3D de alta calidad y diversidad es crucial en diversas aplicaciones, desde la realidad virtual hasta las plataformas sociales. Los enfoques generativos, como las redes generativas adversarias en 3D (GANs), están reemplazando rápidamente las herramientas manuales de creación de contenido. Sin embargo, los marcos existentes de GANs en 3D suelen basarse en representaciones de escenas que utilizan mallas de plantilla, que son rápidas pero ofrecen calidad limitada, o volúmenes, que ofrecen alta capacidad pero son lentos de renderizar, lo que limita la fidelidad 3D en entornos de GANs. En este trabajo, introducimos los volúmenes de superficie en capas (LSVs, por sus siglas en inglés) como una nueva representación de objetos 3D para humanos digitales articulados. Los LSVs representan un cuerpo humano utilizando múltiples capas de malla texturizadas alrededor de una plantilla convencional. Estas capas se renderizan mediante composición alfa con rasterización diferenciable rápida, y pueden interpretarse como una representación volumétrica que asigna su capacidad a una variedad de espesor finito alrededor de la plantilla. A diferencia de las plantillas convencionales de una sola capa que tienen dificultades para representar detalles finos fuera de la superficie, como el cabello o los accesorios, nuestros volúmenes de superficie capturan naturalmente dichos detalles. Los LSVs pueden articularse y exhiben una eficiencia excepcional en entornos de GANs, donde un generador 2D aprende a sintetizar las texturas RGBA para las capas individuales. Entrenado en conjuntos de datos de imágenes 2D de vista única no estructurados, nuestro LSV-GAN genera humanos digitales articulados en 3D de alta calidad y consistencia visual sin la necesidad de redes de muestreo ascendente 2D inconsistentes en la vista.
English
Access to high-quality and diverse 3D articulated digital human assets is
crucial in various applications, ranging from virtual reality to social
platforms. Generative approaches, such as 3D generative adversarial networks
(GANs), are rapidly replacing laborious manual content creation tools. However,
existing 3D GAN frameworks typically rely on scene representations that
leverage either template meshes, which are fast but offer limited quality, or
volumes, which offer high capacity but are slow to render, thereby limiting the
3D fidelity in GAN settings. In this work, we introduce layered surface volumes
(LSVs) as a new 3D object representation for articulated digital humans. LSVs
represent a human body using multiple textured mesh layers around a
conventional template. These layers are rendered using alpha compositing with
fast differentiable rasterization, and they can be interpreted as a volumetric
representation that allocates its capacity to a manifold of finite thickness
around the template. Unlike conventional single-layer templates that struggle
with representing fine off-surface details like hair or accessories, our
surface volumes naturally capture such details. LSVs can be articulated, and
they exhibit exceptional efficiency in GAN settings, where a 2D generator
learns to synthesize the RGBA textures for the individual layers. Trained on
unstructured, single-view 2D image datasets, our LSV-GAN generates high-quality
and view-consistent 3D articulated digital humans without the need for
view-inconsistent 2D upsampling networks.