Geração Eficiente de Humanos Articulados 3D com Volumes de Superfície em Camadas

Resumo

O acesso a ativos digitais humanos 3D articulados de alta qualidade e diversidade é crucial em diversas aplicações, desde realidade virtual até plataformas sociais. Abordagens generativas, como redes generativas adversariais 3D (GANs), estão rapidamente substituindo ferramentas manuais de criação de conteúdo, que são trabalhosas. No entanto, os frameworks existentes de GANs 3D geralmente dependem de representações de cena que utilizam malhas de template, que são rápidas, mas oferecem qualidade limitada, ou volumes, que oferecem alta capacidade, mas são lentos para renderizar, limitando assim a fidelidade 3D em configurações de GAN. Neste trabalho, introduzimos volumes de superfície em camadas (LSVs, do inglês Layered Surface Volumes) como uma nova representação de objetos 3D para humanos digitais articulados. LSVs representam um corpo humano utilizando múltiplas camadas de malhas texturizadas ao redor de um template convencional. Essas camadas são renderizadas usando composição alfa com rasterização diferenciável rápida e podem ser interpretadas como uma representação volumétrica que aloca sua capacidade a uma variedade de espessura finita ao redor do template. Diferentemente dos templates convencionais de camada única, que têm dificuldade em representar detalhes finos fora da superfície, como cabelo ou acessórios, nossos volumes de superfície capturam naturalmente tais detalhes. LSVs podem ser articulados e exibem eficiência excepcional em configurações de GAN, onde um gerador 2D aprende a sintetizar as texturas RGBA para as camadas individuais. Treinado em conjuntos de dados não estruturados de imagens 2D de visão única, nosso LSV-GAN gera humanos digitais 3D articulados de alta qualidade e consistência visual sem a necessidade de redes de upsampling 2D inconsistentes em relação à visão.

English

Access to high-quality and diverse 3D articulated digital human assets is crucial in various applications, ranging from virtual reality to social platforms. Generative approaches, such as 3D generative adversarial networks (GANs), are rapidly replacing laborious manual content creation tools. However, existing 3D GAN frameworks typically rely on scene representations that leverage either template meshes, which are fast but offer limited quality, or volumes, which offer high capacity but are slow to render, thereby limiting the 3D fidelity in GAN settings. In this work, we introduce layered surface volumes (LSVs) as a new 3D object representation for articulated digital humans. LSVs represent a human body using multiple textured mesh layers around a conventional template. These layers are rendered using alpha compositing with fast differentiable rasterization, and they can be interpreted as a volumetric representation that allocates its capacity to a manifold of finite thickness around the template. Unlike conventional single-layer templates that struggle with representing fine off-surface details like hair or accessories, our surface volumes naturally capture such details. LSVs can be articulated, and they exhibit exceptional efficiency in GAN settings, where a 2D generator learns to synthesize the RGBA textures for the individual layers. Trained on unstructured, single-view 2D image datasets, our LSV-GAN generates high-quality and view-consistent 3D articulated digital humans without the need for view-inconsistent 2D upsampling networks.

Geração Eficiente de Humanos Articulados 3D com Volumes de Superfície em Camadas

Efficient 3D Articulated Human Generation with Layered Surface Volumes

Resumo

Support