StableDreamer: テキストから3D生成のためのノイジーなスコア蒸留サンプリングの制御
StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D
December 2, 2023
著者: Pengsheng Guo, Hans Hao, Adam Caccavale, Zhongzheng Ren, Edward Zhang, Qi Shan, Aditya Sankar, Alexander G. Schwing, Alex Colburn, Fangchang Ma
cs.AI
要旨
テキストから3D生成の領域において、スコア蒸留サンプリング(SDS)を通じて2D拡散モデルを利用することは、本質的にノイズの多いSDS損失の性質により、ぼやけた外観や多面体ジオメトリなどの問題を頻繁に引き起こします。私たちの分析では、これらの課題の核心が、2D拡散プロセスにおけるノイズレベル、拡散ネットワークのアーキテクチャ、および3Dモデル表現の相互作用にあることを特定しました。これらの制限を克服するために、私たちはStableDreamerという方法論を提案します。この方法論は、3つの進歩を組み込んでいます。まず、InstructNeRF2NeRFに着想を得て、SDS生成事前分布と単純な教師ありL2再構成損失の等価性を形式化します。この発見は、SDSをデバッグするための新しいツールを提供し、時間的にアニーリングするノイズレベルが多面体ジオメトリを減少させる影響を示すために使用します。次に、私たちの分析は、画像空間拡散が幾何学的精度に寄与する一方で、潜在空間拡散が鮮やかな色再現に不可欠であることを示しています。この観察に基づき、StableDreamerは、これらの側面を効果的に組み合わせた2段階のトレーニング戦略を導入し、高忠実度の3Dモデルを実現します。第三に、私たちは、Neural Radiance Fields(NeRFs)を置き換えるために異方性3Dガウシアン表現を採用し、全体的な品質を向上させ、トレーニング中のメモリ使用量を削減し、レンダリング速度を加速し、半透明オブジェクトをより良く捕捉します。StableDreamerは、多面体ジオメトリを減少させ、細部を生成し、安定して収束します。
English
In the realm of text-to-3D generation, utilizing 2D diffusion models through
score distillation sampling (SDS) frequently leads to issues such as blurred
appearances and multi-faced geometry, primarily due to the intrinsically noisy
nature of the SDS loss. Our analysis identifies the core of these challenges as
the interaction among noise levels in the 2D diffusion process, the
architecture of the diffusion network, and the 3D model representation. To
overcome these limitations, we present StableDreamer, a methodology
incorporating three advances. First, inspired by InstructNeRF2NeRF, we
formalize the equivalence of the SDS generative prior and a simple supervised
L2 reconstruction loss. This finding provides a novel tool to debug SDS, which
we use to show the impact of time-annealing noise levels on reducing
multi-faced geometries. Second, our analysis shows that while image-space
diffusion contributes to geometric precision, latent-space diffusion is crucial
for vivid color rendition. Based on this observation, StableDreamer introduces
a two-stage training strategy that effectively combines these aspects,
resulting in high-fidelity 3D models. Third, we adopt an anisotropic 3D
Gaussians representation, replacing Neural Radiance Fields (NeRFs), to enhance
the overall quality, reduce memory usage during training, and accelerate
rendering speeds, and better capture semi-transparent objects. StableDreamer
reduces multi-face geometries, generates fine details, and converges stably.