En3D: Un modelo generativo mejorado para esculpir humanos 3D a partir de datos sintéticos 2D
En3D: An Enhanced Generative Model for Sculpting 3D Humans from 2D Synthetic Data
January 2, 2024
Autores: Yifang Men, Biwen Lei, Yuan Yao, Miaomiao Cui, Zhouhui Lian, Xuansong Xie
cs.AI
Resumen
Presentamos En3D, un esquema generativo mejorado para esculpir avatares humanos 3D de alta calidad. A diferencia de trabajos anteriores que dependen de conjuntos de datos 3D escasos o colecciones 2D limitadas con ángulos de visión desequilibrados y priores de pose imprecisos, nuestro enfoque busca desarrollar un esquema generativo 3D de tipo zero-shot capaz de producir humanos 3D visualmente realistas, geométricamente precisos y diversos en contenido, sin depender de activos 3D o 2D preexistentes. Para abordar este desafío, introducimos un flujo de trabajo meticulosamente diseñado que implementa modelado físico preciso para aprender el modelo generativo 3D mejorado a partir de datos 2D sintéticos. Durante la inferencia, integramos módulos de optimización para cerrar la brecha entre apariencias realistas y formas 3D aproximadas. Específicamente, En3D consta de tres módulos: un generador 3D que modela con precisión humanos 3D generalizables con apariencia realista a partir de imágenes humanas sintetizadas, equilibradas, diversas y estructuradas; un escultor de geometría que mejora la calidad de la forma utilizando restricciones de normales multi-vista para anatomía humana detallada; y un módulo de texturizado que desentrelaza mapas de textura explícitos con fidelidad y capacidad de edición, aprovechando particiones semánticas UV y un rasterizador diferenciable. Los resultados experimentales muestran que nuestro enfoque supera significativamente a trabajos anteriores en términos de calidad de imagen, precisión geométrica y diversidad de contenido. También demostramos la aplicabilidad de nuestros avatares generados para animación y edición, así como la escalabilidad de nuestro enfoque para la adaptación libre de contenido y estilo.
English
We present En3D, an enhanced generative scheme for sculpting high-quality 3D
human avatars. Unlike previous works that rely on scarce 3D datasets or limited
2D collections with imbalanced viewing angles and imprecise pose priors, our
approach aims to develop a zero-shot 3D generative scheme capable of producing
visually realistic, geometrically accurate and content-wise diverse 3D humans
without relying on pre-existing 3D or 2D assets. To address this challenge, we
introduce a meticulously crafted workflow that implements accurate physical
modeling to learn the enhanced 3D generative model from synthetic 2D data.
During inference, we integrate optimization modules to bridge the gap between
realistic appearances and coarse 3D shapes. Specifically, En3D comprises three
modules: a 3D generator that accurately models generalizable 3D humans with
realistic appearance from synthesized balanced, diverse, and structured human
images; a geometry sculptor that enhances shape quality using multi-view normal
constraints for intricate human anatomy; and a texturing module that
disentangles explicit texture maps with fidelity and editability, leveraging
semantical UV partitioning and a differentiable rasterizer. Experimental
results show that our approach significantly outperforms prior works in terms
of image quality, geometry accuracy and content diversity. We also showcase the
applicability of our generated avatars for animation and editing, as well as
the scalability of our approach for content-style free adaptation.