ChatPaper.aiChatPaper

ProlificDreamer: 変分スコア蒸留による高精細で多様なテキストから3D生成

ProlificDreamer: High-Fidelity and Diverse Text-to-3D Generation with Variational Score Distillation

May 25, 2023
著者: Zhengyi Wang, Cheng Lu, Yikai Wang, Fan Bao, Chongxuan Li, Hang Su, Jun Zhu
cs.AI

要旨

スコア蒸留サンプリング(SDS)は、事前学習済みの大規模テキスト-to-画像拡散モデルを蒸留することで、テキスト-to-3D生成において大きな可能性を示していますが、過剰な飽和、過剰な平滑化、および低多様性の問題に悩まされています。本研究では、3DパラメータをSDSのように定数ではなく確率変数としてモデル化し、前述の問題を説明し解決するための原理に基づいた粒子ベースの変分フレームワークである変分スコア蒸留(VSD)を提案します。SDSはVSDの特殊ケースであり、小さなCFG重みと大きなCFG重みの両方でサンプルの質が低下することを示します。一方、VSDは拡散モデルからの祖先サンプリングとして様々なCFG重みで良好に機能し、共通のCFG重み(例:7.5)で多様性とサンプル品質を同時に向上させます。さらに、蒸留時間スケジュールや密度初期化など、テキスト-to-3Dの設計空間における様々な改善を提示します。これらは蒸留アルゴリズムとは直交するものの、十分に探索されていませんでした。我々のアプローチ全体を「ProlificDreamer」と名付け、高レンダリング解像度(例:512×512)と高忠実度のNeRFを生成し、豊かな構造と複雑な効果(例:煙や水滴)を実現します。さらに、NeRFから初期化されたメッシュをVSDで微調整することで、細部まで精巧で写真のようにリアルな結果を得ることができます。プロジェクトページ: https://ml.cs.tsinghua.edu.cn/prolificdreamer/
English
Score distillation sampling (SDS) has shown great promise in text-to-3D generation by distilling pretrained large-scale text-to-image diffusion models, but suffers from over-saturation, over-smoothing, and low-diversity problems. In this work, we propose to model the 3D parameter as a random variable instead of a constant as in SDS and present variational score distillation (VSD), a principled particle-based variational framework to explain and address the aforementioned issues in text-to-3D generation. We show that SDS is a special case of VSD and leads to poor samples with both small and large CFG weights. In comparison, VSD works well with various CFG weights as ancestral sampling from diffusion models and simultaneously improves the diversity and sample quality with a common CFG weight (i.e., 7.5). We further present various improvements in the design space for text-to-3D such as distillation time schedule and density initialization, which are orthogonal to the distillation algorithm yet not well explored. Our overall approach, dubbed ProlificDreamer, can generate high rendering resolution (i.e., 512times512) and high-fidelity NeRF with rich structure and complex effects (e.g., smoke and drops). Further, initialized from NeRF, meshes fine-tuned by VSD are meticulously detailed and photo-realistic. Project page: https://ml.cs.tsinghua.edu.cn/prolificdreamer/

Summary

AI-Generated Summary

PDF90December 15, 2024