DreamPolish:進行的なジオメトリ生成によるドメインスコアの蒸留
DreamPolish: Domain Score Distillation With Progressive Geometry Generation
November 3, 2024
著者: Yean Cheng, Ziqi Cai, Ming Ding, Wendi Zheng, Shiyu Huang, Yuxiao Dong, Jie Tang, Boxin Shi
cs.AI
要旨
DreamPolishというテキストから3D生成モデルを紹介します。このモデルは洗練されたジオメトリと高品質なテクスチャの生成に優れています。ジオメトリ構築段階では、当社の手法は複数のニューラル表現を活用して合成プロセスの安定性を向上させます。新しいサンプリングされたビューにおけるジオメトリックサーフェスの望ましくないアーティファクトをよく引き起こすビュー条件つき拡散事前分布だけに頼る代わりに、我々は異なる視野を持つ視点に基づいてジオメトリ詳細を磨くための追加の法線推定器を組み込んでいます。以前の段階からの限られたガイダンスに起因するアーティファクトを効果的に洗練し、より望ましいジオメトリを持つ3Dオブジェクトを生成するために、わずかなトレーニングステップで表面磨き段階を追加することを提案します。事前学習されたテキストから画像へのモデルを使用したテクスチャ生成の主題は、これらのモデルの広範な潜在分布の中で写実的で一貫性のあるレンダリングを含む適切なドメインを見つけることです。テクスチャ生成段階では、ニューラル表現をそのようなドメインに誘導するための新しいスコア蒸留目的であるドメインスコア蒸留(DSD)を導入します。テキスト条件つき画像生成タスクにおける分類器フリーガイダンス(CFG)からインスピレーションを得て、CFGと変分分布ガイダンスが勾配ガイダンスの異なる側面を表し、テクスチャ品質の向上にとって重要なドメインであることを示します。包括的な実験は、提案されたモデルが洗練された表面と写実的なテクスチャを持つ3Dアセットを生成し、既存の最先端技術を凌駕することを示しています。
English
We introduce DreamPolish, a text-to-3D generation model that excels in
producing refined geometry and high-quality textures. In the geometry
construction phase, our approach leverages multiple neural representations to
enhance the stability of the synthesis process. Instead of relying solely on a
view-conditioned diffusion prior in the novel sampled views, which often leads
to undesired artifacts in the geometric surface, we incorporate an additional
normal estimator to polish the geometry details, conditioned on viewpoints with
varying field-of-views. We propose to add a surface polishing stage with only a
few training steps, which can effectively refine the artifacts attributed to
limited guidance from previous stages and produce 3D objects with more
desirable geometry. The key topic of texture generation using pretrained
text-to-image models is to find a suitable domain in the vast latent
distribution of these models that contains photorealistic and consistent
renderings. In the texture generation phase, we introduce a novel score
distillation objective, namely domain score distillation (DSD), to guide neural
representations toward such a domain. We draw inspiration from the
classifier-free guidance (CFG) in textconditioned image generation tasks and
show that CFG and variational distribution guidance represent distinct aspects
in gradient guidance and are both imperative domains for the enhancement of
texture quality. Extensive experiments show our proposed model can produce 3D
assets with polished surfaces and photorealistic textures, outperforming
existing state-of-the-art methods.Summary
AI-Generated Summary