ProlificDreamer: 変分スコア蒸留による高精細で多様なテキストから3D生成
ProlificDreamer: High-Fidelity and Diverse Text-to-3D Generation with Variational Score Distillation
May 25, 2023
著者: Zhengyi Wang, Cheng Lu, Yikai Wang, Fan Bao, Chongxuan Li, Hang Su, Jun Zhu
cs.AI
要旨
スコア蒸留サンプリング(SDS)は、事前学習済みの大規模テキスト-to-画像拡散モデルを蒸留することで、テキスト-to-3D生成において大きな可能性を示していますが、過剰な飽和、過剰な平滑化、および低多様性の問題に悩まされています。本研究では、3DパラメータをSDSのように定数ではなく確率変数としてモデル化し、前述の問題を説明し解決するための原理に基づいた粒子ベースの変分フレームワークである変分スコア蒸留(VSD)を提案します。SDSはVSDの特殊ケースであり、小さなCFG重みと大きなCFG重みの両方でサンプルの質が低下することを示します。一方、VSDは拡散モデルからの祖先サンプリングとして様々なCFG重みで良好に機能し、共通のCFG重み(例:7.5)で多様性とサンプル品質を同時に向上させます。さらに、蒸留時間スケジュールや密度初期化など、テキスト-to-3Dの設計空間における様々な改善を提示します。これらは蒸留アルゴリズムとは直交するものの、十分に探索されていませんでした。我々のアプローチ全体を「ProlificDreamer」と名付け、高レンダリング解像度(例:512×512)と高忠実度のNeRFを生成し、豊かな構造と複雑な効果(例:煙や水滴)を実現します。さらに、NeRFから初期化されたメッシュをVSDで微調整することで、細部まで精巧で写真のようにリアルな結果を得ることができます。プロジェクトページ: https://ml.cs.tsinghua.edu.cn/prolificdreamer/
English
Score distillation sampling (SDS) has shown great promise in text-to-3D
generation by distilling pretrained large-scale text-to-image diffusion models,
but suffers from over-saturation, over-smoothing, and low-diversity problems.
In this work, we propose to model the 3D parameter as a random variable instead
of a constant as in SDS and present variational score distillation (VSD), a
principled particle-based variational framework to explain and address the
aforementioned issues in text-to-3D generation. We show that SDS is a special
case of VSD and leads to poor samples with both small and large CFG weights. In
comparison, VSD works well with various CFG weights as ancestral sampling from
diffusion models and simultaneously improves the diversity and sample quality
with a common CFG weight (i.e., 7.5). We further present various improvements
in the design space for text-to-3D such as distillation time schedule and
density initialization, which are orthogonal to the distillation algorithm yet
not well explored. Our overall approach, dubbed ProlificDreamer, can generate
high rendering resolution (i.e., 512times512) and high-fidelity NeRF with
rich structure and complex effects (e.g., smoke and drops). Further,
initialized from NeRF, meshes fine-tuned by VSD are meticulously detailed and
photo-realistic. Project page: https://ml.cs.tsinghua.edu.cn/prolificdreamer/Summary
AI-Generated Summary