En3D: Un modello generativo avanzato per la scultura di umani 3D a partire da dati sintetici 2D
En3D: An Enhanced Generative Model for Sculpting 3D Humans from 2D Synthetic Data
January 2, 2024
Autori: Yifang Men, Biwen Lei, Yuan Yao, Miaomiao Cui, Zhouhui Lian, Xuansong Xie
cs.AI
Abstract
Presentiamo En3D, uno schema generativo avanzato per la creazione di avatar umani 3D di alta qualità. A differenza dei lavori precedenti che si basano su dataset 3D scarsi o collezioni 2D limitate con angoli di visualizzazione sbilanciati e prior di pose imprecise, il nostro approccio mira a sviluppare uno schema generativo 3D zero-shot in grado di produrre esseri umani 3D visivamente realistici, geometricamente accurati e diversificati nel contenuto, senza fare affidamento su asset 3D o 2D preesistenti. Per affrontare questa sfida, introduciamo un flusso di lavoro meticolosamente progettato che implementa una modellazione fisica accurata per apprendere il modello generativo 3D avanzato da dati 2D sintetici. Durante l'inferenza, integriamo moduli di ottimizzazione per colmare il divario tra aspetto realistico e forme 3D grezze. Nello specifico, En3D comprende tre moduli: un generatore 3D che modella accuratamente esseri umani 3D generalizzabili con un aspetto realistico a partire da immagini umane sintetizzate, bilanciate, diversificate e strutturate; uno scultore di geometria che migliora la qualità della forma utilizzando vincoli normali multi-vista per l'anatomia umana complessa; e un modulo di texturing che separa mappe di texture esplicite con fedeltà e editabilità, sfruttando partizioni UV semantiche e un rasterizzatore differenziabile. I risultati sperimentali dimostrano che il nostro approccio supera significativamente i lavori precedenti in termini di qualità dell'immagine, accuratezza geometrica e diversità del contenuto. Mostriamo inoltre l'applicabilità dei nostri avatar generati per l'animazione e l'editing, nonché la scalabilità del nostro approccio per l'adattamento libero da contenuto e stile.
English
We present En3D, an enhanced generative scheme for sculpting high-quality 3D
human avatars. Unlike previous works that rely on scarce 3D datasets or limited
2D collections with imbalanced viewing angles and imprecise pose priors, our
approach aims to develop a zero-shot 3D generative scheme capable of producing
visually realistic, geometrically accurate and content-wise diverse 3D humans
without relying on pre-existing 3D or 2D assets. To address this challenge, we
introduce a meticulously crafted workflow that implements accurate physical
modeling to learn the enhanced 3D generative model from synthetic 2D data.
During inference, we integrate optimization modules to bridge the gap between
realistic appearances and coarse 3D shapes. Specifically, En3D comprises three
modules: a 3D generator that accurately models generalizable 3D humans with
realistic appearance from synthesized balanced, diverse, and structured human
images; a geometry sculptor that enhances shape quality using multi-view normal
constraints for intricate human anatomy; and a texturing module that
disentangles explicit texture maps with fidelity and editability, leveraging
semantical UV partitioning and a differentiable rasterizer. Experimental
results show that our approach significantly outperforms prior works in terms
of image quality, geometry accuracy and content diversity. We also showcase the
applicability of our generated avatars for animation and editing, as well as
the scalability of our approach for content-style free adaptation.