ChatPaper.aiChatPaper

En3D: 2D合成データから3D人間像を彫刻するための拡張生成モデル

En3D: An Enhanced Generative Model for Sculpting 3D Humans from 2D Synthetic Data

January 2, 2024
著者: Yifang Men, Biwen Lei, Yuan Yao, Miaomiao Cui, Zhouhui Lian, Xuansong Xie
cs.AI

要旨

高品質な3Dヒューマンアバターを生成するための拡張生成スキームであるEn3Dを提案します。従来の研究では、希少な3Dデータセットや視点が偏った限定的な2Dコレクション、不正確な姿勢事前分布に依存していましたが、我々のアプローチでは、既存の3Dや2Dアセットに依存せずに、視覚的にリアルで幾何学的に正確かつ内容的に多様な3Dヒューマンを生成できるゼロショット3D生成スキームの開発を目指しています。この課題に対処するため、合成2Dデータから拡張された3D生成モデルを学習するために、正確な物理モデリングを実装した入念に設計されたワークフローを導入します。推論時には、リアルな外観と粗い3D形状のギャップを埋めるために最適化モジュールを統合します。具体的には、En3Dは3つのモジュールで構成されています:合成されたバランスの取れた多様で構造化された人間画像から、汎用的な3Dヒューマンをリアルな外観で正確にモデル化する3Dジェネレータ、複雑な人体解剖学を考慮したマルチビューノーマル制約を使用して形状品質を向上させるジオメトリスカルプター、セマンティックUV分割と微分可能ラスタライザを活用して忠実度と編集性を備えた明示的なテクスチャマップを分離するテクスチャリングモジュールです。実験結果は、我々のアプローチが画像品質、幾何学的精度、および内容の多様性の点で従来の研究を大幅に上回ることを示しています。また、生成されたアバターのアニメーションや編集への適用性、およびコンテンツスタイルの自由な適応に対するアプローチのスケーラビリティも実証しています。
English
We present En3D, an enhanced generative scheme for sculpting high-quality 3D human avatars. Unlike previous works that rely on scarce 3D datasets or limited 2D collections with imbalanced viewing angles and imprecise pose priors, our approach aims to develop a zero-shot 3D generative scheme capable of producing visually realistic, geometrically accurate and content-wise diverse 3D humans without relying on pre-existing 3D or 2D assets. To address this challenge, we introduce a meticulously crafted workflow that implements accurate physical modeling to learn the enhanced 3D generative model from synthetic 2D data. During inference, we integrate optimization modules to bridge the gap between realistic appearances and coarse 3D shapes. Specifically, En3D comprises three modules: a 3D generator that accurately models generalizable 3D humans with realistic appearance from synthesized balanced, diverse, and structured human images; a geometry sculptor that enhances shape quality using multi-view normal constraints for intricate human anatomy; and a texturing module that disentangles explicit texture maps with fidelity and editability, leveraging semantical UV partitioning and a differentiable rasterizer. Experimental results show that our approach significantly outperforms prior works in terms of image quality, geometry accuracy and content diversity. We also showcase the applicability of our generated avatars for animation and editing, as well as the scalability of our approach for content-style free adaptation.
PDF129December 15, 2024