Stabile Score-Destillation für hochwertige 3D-Generierung

papers.abstract

Score Distillation Sampling (SDS) hat bemerkenswerte Leistungen bei der bedingten 3D-Inhaltsgenerierung gezeigt. Dennoch fehlt ein umfassendes Verständnis der SDS-Formulierung, was die Entwicklung der 3D-Generierung behindert. In dieser Arbeit präsentieren wir eine Interpretation von SDS als Kombination aus drei funktionalen Komponenten: mode-disengaging, mode-seeking und variance-reducing Terme, und analysieren die Eigenschaften jeder Komponente. Wir zeigen, dass Probleme wie Überglättung und Farbsättigung auf die inhärenten Mängel der Überwachungsterme zurückzuführen sind und dass der von SDS eingeführte variance-reducing Term suboptimal ist. Zudem beleuchten wir die Verwendung eines großen Classifier-Free Guidance (CFG)-Skalierungswerts für die 3D-Generierung. Basierend auf der Analyse schlagen wir einen einfachen, aber effektiven Ansatz namens Stable Score Distillation (SSD) vor, der strategisch jeden Term für eine hochwertige 3D-Generierung orchestriert. Umfangreiche Experimente bestätigen die Wirksamkeit unseres Ansatzes und demonstrieren seine Fähigkeit, hochwertige 3D-Inhalte zu erzeugen, ohne Problemen wie Überglättung und Übersättigung zu erliegen, selbst unter niedrigen CFG-Bedingungen mit der anspruchsvollsten NeRF-Darstellung.

English

Score Distillation Sampling (SDS) has exhibited remarkable performance in conditional 3D content generation. However, a comprehensive understanding of the SDS formulation is still lacking, hindering the development of 3D generation. In this work, we present an interpretation of SDS as a combination of three functional components: mode-disengaging, mode-seeking and variance-reducing terms, and analyze the properties of each. We show that problems such as over-smoothness and color-saturation result from the intrinsic deficiency of the supervision terms and reveal that the variance-reducing term introduced by SDS is sub-optimal. Additionally, we shed light on the adoption of large Classifier-Free Guidance (CFG) scale for 3D generation. Based on the analysis, we propose a simple yet effective approach named Stable Score Distillation (SSD) which strategically orchestrates each term for high-quality 3D generation. Extensive experiments validate the efficacy of our approach, demonstrating its ability to generate high-fidelity 3D content without succumbing to issues such as over-smoothness and over-saturation, even under low CFG conditions with the most challenging NeRF representation.

Stabile Score-Destillation für hochwertige 3D-Generierung

Stable Score Distillation for High-Quality 3D Generation

papers.abstract

Support