En3D: Un modelo generativo mejorado para esculpir humanos 3D a partir de datos sintéticos 2D

Resumen

Presentamos En3D, un esquema generativo mejorado para esculpir avatares humanos 3D de alta calidad. A diferencia de trabajos anteriores que dependen de conjuntos de datos 3D escasos o colecciones 2D limitadas con ángulos de visión desequilibrados y priores de pose imprecisos, nuestro enfoque busca desarrollar un esquema generativo 3D de tipo zero-shot capaz de producir humanos 3D visualmente realistas, geométricamente precisos y diversos en contenido, sin depender de activos 3D o 2D preexistentes. Para abordar este desafío, introducimos un flujo de trabajo meticulosamente diseñado que implementa modelado físico preciso para aprender el modelo generativo 3D mejorado a partir de datos 2D sintéticos. Durante la inferencia, integramos módulos de optimización para cerrar la brecha entre apariencias realistas y formas 3D aproximadas. Específicamente, En3D consta de tres módulos: un generador 3D que modela con precisión humanos 3D generalizables con apariencia realista a partir de imágenes humanas sintetizadas, equilibradas, diversas y estructuradas; un escultor de geometría que mejora la calidad de la forma utilizando restricciones de normales multi-vista para anatomía humana detallada; y un módulo de texturizado que desentrelaza mapas de textura explícitos con fidelidad y capacidad de edición, aprovechando particiones semánticas UV y un rasterizador diferenciable. Los resultados experimentales muestran que nuestro enfoque supera significativamente a trabajos anteriores en términos de calidad de imagen, precisión geométrica y diversidad de contenido. También demostramos la aplicabilidad de nuestros avatares generados para animación y edición, así como la escalabilidad de nuestro enfoque para la adaptación libre de contenido y estilo.

English

We present En3D, an enhanced generative scheme for sculpting high-quality 3D human avatars. Unlike previous works that rely on scarce 3D datasets or limited 2D collections with imbalanced viewing angles and imprecise pose priors, our approach aims to develop a zero-shot 3D generative scheme capable of producing visually realistic, geometrically accurate and content-wise diverse 3D humans without relying on pre-existing 3D or 2D assets. To address this challenge, we introduce a meticulously crafted workflow that implements accurate physical modeling to learn the enhanced 3D generative model from synthetic 2D data. During inference, we integrate optimization modules to bridge the gap between realistic appearances and coarse 3D shapes. Specifically, En3D comprises three modules: a 3D generator that accurately models generalizable 3D humans with realistic appearance from synthesized balanced, diverse, and structured human images; a geometry sculptor that enhances shape quality using multi-view normal constraints for intricate human anatomy; and a texturing module that disentangles explicit texture maps with fidelity and editability, leveraging semantical UV partitioning and a differentiable rasterizer. Experimental results show that our approach significantly outperforms prior works in terms of image quality, geometry accuracy and content diversity. We also showcase the applicability of our generated avatars for animation and editing, as well as the scalability of our approach for content-style free adaptation.

En3D: Un modelo generativo mejorado para esculpir humanos 3D a partir de datos sintéticos 2D

En3D: An Enhanced Generative Model for Sculpting 3D Humans from 2D Synthetic Data

Resumen

Support