고품질 3D 생성을 위한 안정적 점수 증류
Stable Score Distillation for High-Quality 3D Generation
December 14, 2023
저자: Boshi Tang, Jianan Wang, Zhiyong Wu, Lei Zhang
cs.AI
초록
Score Distillation Sampling(SDS)는 조건부 3D 콘텐츠 생성에서 뛰어난 성능을 보여왔습니다. 그러나 SDS 공식에 대한 포괄적인 이해는 여전히 부족하여 3D 생성의 발전을 저해하고 있습니다. 본 연구에서는 SDS를 모드 분리(mode-disengaging), 모드 탐색(mode-seeking), 분산 감소(variance-reducing)라는 세 가지 기능적 구성 요소의 조합으로 해석하고, 각각의 특성을 분석합니다. 우리는 과도한 매끄러움(over-smoothness)과 색상 포화(color-saturation)와 같은 문제들이 감독 항목의 본질적인 결함에서 비롯된다는 것을 보여주며, SDS에 의해 도입된 분산 감소 항이 최적이 아님을 밝힙니다. 또한, 3D 생성을 위한 큰 Classifier-Free Guidance(CFG) 스케일의 채택에 대한 통찰을 제공합니다. 이러한 분석을 바탕으로, 우리는 각 항을 전략적으로 조율하여 고품질 3D 생성을 가능하게 하는 간단하면서도 효과적인 접근 방식인 Stable Score Distillation(SSD)을 제안합니다. 광범위한 실험을 통해 우리의 접근 방식의 효능을 검증하였으며, 가장 도전적인 NeRF 표현에서도 낮은 CFG 조건 하에서 과도한 매끄러움과 포화 문제 없이 고해상도 3D 콘텐츠를 생성할 수 있음을 입증했습니다.
English
Score Distillation Sampling (SDS) has exhibited remarkable performance in
conditional 3D content generation. However, a comprehensive understanding of
the SDS formulation is still lacking, hindering the development of 3D
generation. In this work, we present an interpretation of SDS as a combination
of three functional components: mode-disengaging, mode-seeking and
variance-reducing terms, and analyze the properties of each. We show that
problems such as over-smoothness and color-saturation result from the intrinsic
deficiency of the supervision terms and reveal that the variance-reducing term
introduced by SDS is sub-optimal. Additionally, we shed light on the adoption
of large Classifier-Free Guidance (CFG) scale for 3D generation. Based on the
analysis, we propose a simple yet effective approach named Stable Score
Distillation (SSD) which strategically orchestrates each term for high-quality
3D generation. Extensive experiments validate the efficacy of our approach,
demonstrating its ability to generate high-fidelity 3D content without
succumbing to issues such as over-smoothness and over-saturation, even under
low CFG conditions with the most challenging NeRF representation.