En3D: Um Modelo Generativo Aprimorado para Esculpir Humanos 3D a partir de Dados Sintéticos 2D
En3D: An Enhanced Generative Model for Sculpting 3D Humans from 2D Synthetic Data
January 2, 2024
Autores: Yifang Men, Biwen Lei, Yuan Yao, Miaomiao Cui, Zhouhui Lian, Xuansong Xie
cs.AI
Resumo
Apresentamos o En3D, um esquema generativo aprimorado para esculpir avatares humanos 3D de alta qualidade. Diferentemente de trabalhos anteriores que dependem de conjuntos de dados 3D escassos ou coleções 2D limitadas com ângulos de visão desequilibrados e priores de pose imprecisos, nossa abordagem visa desenvolver um esquema generativo 3D zero-shot capaz de produzir humanos 3D visualmente realistas, geometricamente precisos e diversificados em conteúdo, sem depender de ativos 3D ou 2D pré-existentes. Para enfrentar esse desafio, introduzimos um fluxo de trabalho meticulosamente elaborado que implementa modelagem física precisa para aprender o modelo generativo 3D aprimorado a partir de dados 2D sintéticos. Durante a inferência, integramos módulos de otimização para preencher a lacuna entre aparências realistas e formas 3D grosseiras. Especificamente, o En3D compreende três módulos: um gerador 3D que modela com precisão humanos 3D generalizáveis com aparência realista a partir de imagens humanas sintetizadas, balanceadas, diversificadas e estruturadas; um escultor de geometria que aprimora a qualidade da forma usando restrições de normais multi-visão para anatomia humana detalhada; e um módulo de texturização que desacopla mapas de textura explícitos com fidelidade e editabilidade, aproveitando particionamento semântico UV e um rasterizador diferenciável. Resultados experimentais mostram que nossa abordagem supera significativamente trabalhos anteriores em termos de qualidade de imagem, precisão geométrica e diversidade de conteúdo. Também demonstramos a aplicabilidade de nossos avatares gerados para animação e edição, bem como a escalabilidade de nossa abordagem para adaptação livre de conteúdo e estilo.
English
We present En3D, an enhanced generative scheme for sculpting high-quality 3D
human avatars. Unlike previous works that rely on scarce 3D datasets or limited
2D collections with imbalanced viewing angles and imprecise pose priors, our
approach aims to develop a zero-shot 3D generative scheme capable of producing
visually realistic, geometrically accurate and content-wise diverse 3D humans
without relying on pre-existing 3D or 2D assets. To address this challenge, we
introduce a meticulously crafted workflow that implements accurate physical
modeling to learn the enhanced 3D generative model from synthetic 2D data.
During inference, we integrate optimization modules to bridge the gap between
realistic appearances and coarse 3D shapes. Specifically, En3D comprises three
modules: a 3D generator that accurately models generalizable 3D humans with
realistic appearance from synthesized balanced, diverse, and structured human
images; a geometry sculptor that enhances shape quality using multi-view normal
constraints for intricate human anatomy; and a texturing module that
disentangles explicit texture maps with fidelity and editability, leveraging
semantical UV partitioning and a differentiable rasterizer. Experimental
results show that our approach significantly outperforms prior works in terms
of image quality, geometry accuracy and content diversity. We also showcase the
applicability of our generated avatars for animation and editing, as well as
the scalability of our approach for content-style free adaptation.