En3D: Ein verbessertes generatives Modell zur Gestaltung von 3D-Menschen aus 2D-synthetischen Daten
En3D: An Enhanced Generative Model for Sculpting 3D Humans from 2D Synthetic Data
January 2, 2024
Autoren: Yifang Men, Biwen Lei, Yuan Yao, Miaomiao Cui, Zhouhui Lian, Xuansong Xie
cs.AI
Zusammenfassung
Wir präsentieren En3D, ein verbessertes generatives Schema zur Gestaltung hochwertiger 3D-Menschenavatare. Im Gegensatz zu früheren Arbeiten, die sich auf knappe 3D-Datensätze oder begrenzte 2D-Sammlungen mit unausgewogenen Blickwinkeln und ungenauen Posepriors stützen, zielt unser Ansatz darauf ab, ein Zero-Shot-3D-generatives Schema zu entwickeln, das visuell realistische, geometrisch präzise und inhaltlich vielfältige 3D-Menschen erzeugen kann, ohne auf bestehende 3D- oder 2D-Assets zurückzugreifen. Um diese Herausforderung zu bewältigen, führen wir einen sorgfältig gestalteten Workflow ein, der eine präzise physikalische Modellierung implementiert, um das verbesserte 3D-generative Modell aus synthetischen 2D-Daten zu lernen. Während der Inferenz integrieren wir Optimierungsmodule, um die Lücke zwischen realistischen Erscheinungen und groben 3D-Formen zu überbrücken. Konkret besteht En3D aus drei Modulen: einem 3D-Generator, der generalisierbare 3D-Menschen mit realistischer Erscheinung aus synthetisierten, ausgewogenen, vielfältigen und strukturierten Menschenbildern genau modelliert; einem Geometrie-Skulpteur, der die Formqualität durch Multi-View-Normalen-Constraints für detaillierte menschliche Anatomie verbessert; und einem Texturierungsmodul, das explizite Texturkarten mit hoher Detailtreue und Bearbeitbarkeit durch semantische UV-Partitionierung und einen differenzierbaren Rasterizer entwirrt. Experimentelle Ergebnisse zeigen, dass unser Ansatz frühere Arbeiten in Bezug auf Bildqualität, geometrische Genauigkeit und inhaltliche Vielfalt deutlich übertrifft. Wir demonstrieren auch die Anwendbarkeit unserer generierten Avatare für Animation und Bearbeitung sowie die Skalierbarkeit unseres Ansatzes für die inhalts- und stilfreie Anpassung.
English
We present En3D, an enhanced generative scheme for sculpting high-quality 3D
human avatars. Unlike previous works that rely on scarce 3D datasets or limited
2D collections with imbalanced viewing angles and imprecise pose priors, our
approach aims to develop a zero-shot 3D generative scheme capable of producing
visually realistic, geometrically accurate and content-wise diverse 3D humans
without relying on pre-existing 3D or 2D assets. To address this challenge, we
introduce a meticulously crafted workflow that implements accurate physical
modeling to learn the enhanced 3D generative model from synthetic 2D data.
During inference, we integrate optimization modules to bridge the gap between
realistic appearances and coarse 3D shapes. Specifically, En3D comprises three
modules: a 3D generator that accurately models generalizable 3D humans with
realistic appearance from synthesized balanced, diverse, and structured human
images; a geometry sculptor that enhances shape quality using multi-view normal
constraints for intricate human anatomy; and a texturing module that
disentangles explicit texture maps with fidelity and editability, leveraging
semantical UV partitioning and a differentiable rasterizer. Experimental
results show that our approach significantly outperforms prior works in terms
of image quality, geometry accuracy and content diversity. We also showcase the
applicability of our generated avatars for animation and editing, as well as
the scalability of our approach for content-style free adaptation.