Stabile Score-Destillation für hochwertige 3D-Generierung
Stable Score Distillation for High-Quality 3D Generation
December 14, 2023
Autoren: Boshi Tang, Jianan Wang, Zhiyong Wu, Lei Zhang
cs.AI
Zusammenfassung
Score Distillation Sampling (SDS) hat bemerkenswerte Leistungen bei der bedingten 3D-Inhaltsgenerierung gezeigt. Dennoch fehlt ein umfassendes Verständnis der SDS-Formulierung, was die Entwicklung der 3D-Generierung behindert. In dieser Arbeit präsentieren wir eine Interpretation von SDS als Kombination aus drei funktionalen Komponenten: mode-disengaging, mode-seeking und variance-reducing Terme, und analysieren die Eigenschaften jeder Komponente. Wir zeigen, dass Probleme wie Überglättung und Farbsättigung auf die inhärenten Mängel der Überwachungsterme zurückzuführen sind und dass der von SDS eingeführte variance-reducing Term suboptimal ist. Zudem beleuchten wir die Verwendung eines großen Classifier-Free Guidance (CFG)-Skalierungswerts für die 3D-Generierung. Basierend auf der Analyse schlagen wir einen einfachen, aber effektiven Ansatz namens Stable Score Distillation (SSD) vor, der strategisch jeden Term für eine hochwertige 3D-Generierung orchestriert. Umfangreiche Experimente bestätigen die Wirksamkeit unseres Ansatzes und demonstrieren seine Fähigkeit, hochwertige 3D-Inhalte zu erzeugen, ohne Problemen wie Überglättung und Übersättigung zu erliegen, selbst unter niedrigen CFG-Bedingungen mit der anspruchsvollsten NeRF-Darstellung.
English
Score Distillation Sampling (SDS) has exhibited remarkable performance in
conditional 3D content generation. However, a comprehensive understanding of
the SDS formulation is still lacking, hindering the development of 3D
generation. In this work, we present an interpretation of SDS as a combination
of three functional components: mode-disengaging, mode-seeking and
variance-reducing terms, and analyze the properties of each. We show that
problems such as over-smoothness and color-saturation result from the intrinsic
deficiency of the supervision terms and reveal that the variance-reducing term
introduced by SDS is sub-optimal. Additionally, we shed light on the adoption
of large Classifier-Free Guidance (CFG) scale for 3D generation. Based on the
analysis, we propose a simple yet effective approach named Stable Score
Distillation (SSD) which strategically orchestrates each term for high-quality
3D generation. Extensive experiments validate the efficacy of our approach,
demonstrating its ability to generate high-fidelity 3D content without
succumbing to issues such as over-smoothness and over-saturation, even under
low CFG conditions with the most challenging NeRF representation.