DreamCraft3D: ブートストラップ拡散事前分布を用いた階層的3D生成
DreamCraft3D: Hierarchical 3D Generation with Bootstrapped Diffusion Prior
October 25, 2023
著者: Jingxiang Sun, Bo Zhang, Ruizhi Shao, Lizhen Wang, Wen Liu, Zhenda Xie, Yebin Liu
cs.AI
要旨
本論文では、高精細で一貫性のある3Dオブジェクトを生成する階層的3Dコンテンツ生成手法「DreamCraft3D」を提案します。本手法では、2D参照画像を活用してジオメトリの彫刻とテクスチャの強化の各段階をガイドすることで、既存研究が直面する一貫性の問題に取り組みます。一貫性のあるレンダリングを実現するジオメトリを彫刻するために、視点依存の拡散モデルを用いたスコア蒸留サンプリングを実施します。この3D事前分布と複数の学習戦略により、ジオメトリの一貫性を優先しますが、テクスチャの忠実度は犠牲になります。そこで、テクスチャを特に強化するために「ブートストラップ型スコア蒸留」を提案します。シーンの拡張レンダリングに対してパーソナライズされた拡散モデル「Dreambooth」を学習させ、最適化中のシーンに関する3D知識を付与します。この3Dを意識した拡散事前分布からのスコア蒸留は、シーンに対して視点一貫性のあるガイダンスを提供します。特に、拡散事前分布と3Dシーン表現を交互に最適化することで、相互に強化される改善を実現します:最適化された3Dシーンはシーン固有の拡散モデルの学習を助け、そのモデルは3D最適化に対してますます視点一貫性のあるガイダンスを提供します。これにより、最適化はブートストラップされ、テクスチャの大幅な強化が実現されます。階層的生成全体にわたって調整された3D事前分布を用いることで、DreamCraft3Dはフォトリアルなレンダリングを伴う一貫性のある3Dオブジェクトを生成し、3Dコンテンツ生成の最先端を進化させます。コードはhttps://github.com/deepseek-ai/DreamCraft3Dで公開されています。
English
We present DreamCraft3D, a hierarchical 3D content generation method that
produces high-fidelity and coherent 3D objects. We tackle the problem by
leveraging a 2D reference image to guide the stages of geometry sculpting and
texture boosting. A central focus of this work is to address the consistency
issue that existing works encounter. To sculpt geometries that render
coherently, we perform score distillation sampling via a view-dependent
diffusion model. This 3D prior, alongside several training strategies,
prioritizes the geometry consistency but compromises the texture fidelity. We
further propose Bootstrapped Score Distillation to specifically boost the
texture. We train a personalized diffusion model, Dreambooth, on the augmented
renderings of the scene, imbuing it with 3D knowledge of the scene being
optimized. The score distillation from this 3D-aware diffusion prior provides
view-consistent guidance for the scene. Notably, through an alternating
optimization of the diffusion prior and 3D scene representation, we achieve
mutually reinforcing improvements: the optimized 3D scene aids in training the
scene-specific diffusion model, which offers increasingly view-consistent
guidance for 3D optimization. The optimization is thus bootstrapped and leads
to substantial texture boosting. With tailored 3D priors throughout the
hierarchical generation, DreamCraft3D generates coherent 3D objects with
photorealistic renderings, advancing the state-of-the-art in 3D content
generation. Code available at https://github.com/deepseek-ai/DreamCraft3D.