UniDream: リライタブルなテキストから3D生成のための拡散事前分布の統合
UniDream: Unifying Diffusion Priors for Relightable Text-to-3D Generation
December 14, 2023
著者: Zexiang Liu, Yangguang Li, Youtian Lin, Xin Yu, Sida Peng, Yan-Pei Cao, Xiaojuan Qi, Xiaoshui Huang, Ding Liang, Wanli Ouyang
cs.AI
要旨
近年のテキストから3D生成技術の進展により、テキスト記述から想像力豊かで幾何学的に整った、細やかなテクスチャを持つ3Dオブジェクトへの変換が大幅に進化しました。しかしながら、これらの進展にもかかわらず、拡散モデルや再構成モデルにおけるRGBデータの使用に起因する制約が顕著です。これにより、モデルには現実感を損なう照明や影の効果が内在し、正確な再照明能力を要求するアプリケーションでの有用性が制限されています。このギャップを埋めるため、我々はUniDreamを提案します。これは、統一された拡散事前分布を組み込んだテキストから3D生成フレームワークです。我々のアプローチは、以下の3つの主要なコンポーネントで構成されています:(1)アルベドと法線が整合した多視点拡散および再構成モデルを得るための二段階トレーニングプロセス、(2)トレーニング済みの再構成モデルと拡散モデルを用いたスコア蒸留サンプリング(SDS)に基づくジオメトリとアルベドテクスチャの段階的生成手順、(3)Stable Diffusionモデルに基づいて固定されたアルベドを保持しながら、PBR生成を最終化するためのSDSの革新的な適用です。広範な評価により、UniDreamが既存の手法を凌駕し、より明確なアルベドテクスチャ、滑らかな表面、強化された現実感、そして優れた再照明能力を持つ3Dオブジェクトを生成することが実証されています。
English
Recent advancements in text-to-3D generation technology have significantly
advanced the conversion of textual descriptions into imaginative
well-geometrical and finely textured 3D objects. Despite these developments, a
prevalent limitation arises from the use of RGB data in diffusion or
reconstruction models, which often results in models with inherent lighting and
shadows effects that detract from their realism, thereby limiting their
usability in applications that demand accurate relighting capabilities. To
bridge this gap, we present UniDream, a text-to-3D generation framework by
incorporating unified diffusion priors. Our approach consists of three main
components: (1) a dual-phase training process to get albedo-normal aligned
multi-view diffusion and reconstruction models, (2) a progressive generation
procedure for geometry and albedo-textures based on Score Distillation Sample
(SDS) using the trained reconstruction and diffusion models, and (3) an
innovative application of SDS for finalizing PBR generation while keeping a
fixed albedo based on Stable Diffusion model. Extensive evaluations demonstrate
that UniDream surpasses existing methods in generating 3D objects with clearer
albedo textures, smoother surfaces, enhanced realism, and superior relighting
capabilities.