高品質3D生成のための安定スコア蒸留
Stable Score Distillation for High-Quality 3D Generation
December 14, 2023
著者: Boshi Tang, Jianan Wang, Zhiyong Wu, Lei Zhang
cs.AI
要旨
スコア蒸留サンプリング(SDS)は、条件付き3Dコンテンツ生成において顕著な性能を発揮しています。しかし、SDSの定式化に対する包括的な理解はまだ不十分であり、3D生成の進展を妨げています。本研究では、SDSをモード分離、モード探索、および分散低減の3つの機能的なコンポーネントの組み合わせとして解釈し、それぞれの特性を分析します。過剰な平滑化や色飽和といった問題は、監督項の本質的な欠陥に起因することを示し、SDSによって導入された分散低減項が最適ではないことを明らかにします。さらに、3D生成における大規模なClassifier-Free Guidance(CFG)スケールの採用についても考察します。この分析に基づき、各項を戦略的に調整して高品質な3D生成を実現する、シンプルでありながら効果的なアプローチであるStable Score Distillation(SSD)を提案します。広範な実験により、我々のアプローチの有効性が検証され、最も挑戦的なNeRF表現においても低CFG条件下で、過剰な平滑化や過飽和といった問題に陥ることなく、高忠実度の3Dコンテンツを生成できることが実証されています。
English
Score Distillation Sampling (SDS) has exhibited remarkable performance in
conditional 3D content generation. However, a comprehensive understanding of
the SDS formulation is still lacking, hindering the development of 3D
generation. In this work, we present an interpretation of SDS as a combination
of three functional components: mode-disengaging, mode-seeking and
variance-reducing terms, and analyze the properties of each. We show that
problems such as over-smoothness and color-saturation result from the intrinsic
deficiency of the supervision terms and reveal that the variance-reducing term
introduced by SDS is sub-optimal. Additionally, we shed light on the adoption
of large Classifier-Free Guidance (CFG) scale for 3D generation. Based on the
analysis, we propose a simple yet effective approach named Stable Score
Distillation (SSD) which strategically orchestrates each term for high-quality
3D generation. Extensive experiments validate the efficacy of our approach,
demonstrating its ability to generate high-fidelity 3D content without
succumbing to issues such as over-smoothness and over-saturation, even under
low CFG conditions with the most challenging NeRF representation.