Stabiele Score Distillatie voor Hoogwaardige 3D-generatie
Stable Score Distillation for High-Quality 3D Generation
December 14, 2023
Auteurs: Boshi Tang, Jianan Wang, Zhiyong Wu, Lei Zhang
cs.AI
Samenvatting
Score Distillation Sampling (SDS) heeft opmerkelijke prestaties getoond in de conditionele generatie van 3D-inhoud. Een diepgaand begrip van de SDS-formulering ontbreekt echter nog steeds, wat de ontwikkeling van 3D-generatie belemmert. In dit werk presenteren we een interpretatie van SDS als een combinatie van drie functionele componenten: mode-ontkoppelende, mode-zoekende en variantie-reducerende termen, en analyseren we de eigenschappen van elk. We laten zien dat problemen zoals overmatige gladheid en kleurverzadiging voortkomen uit de intrinsieke tekortkomingen van de supervisietermen en onthullen dat de variantie-reducerende term die door SDS wordt geïntroduceerd suboptimaal is. Daarnaast werpen we licht op het gebruik van een grote Classifier-Free Guidance (CFG)-schaal voor 3D-generatie. Op basis van de analyse stellen we een eenvoudige maar effectieve aanpak voor, genaamd Stable Score Distillation (SSD), die elk term strategisch coördineert voor hoogwaardige 3D-generatie. Uitgebreide experimenten valideren de effectiviteit van onze aanpak, waarbij wordt aangetoond dat het in staat is om hoogwaardige 3D-inhoud te genereren zonder te vervallen in problemen zoals overmatige gladheid en oververzadiging, zelfs onder lage CFG-omstandigheden met de meest uitdagende NeRF-representatie.
English
Score Distillation Sampling (SDS) has exhibited remarkable performance in
conditional 3D content generation. However, a comprehensive understanding of
the SDS formulation is still lacking, hindering the development of 3D
generation. In this work, we present an interpretation of SDS as a combination
of three functional components: mode-disengaging, mode-seeking and
variance-reducing terms, and analyze the properties of each. We show that
problems such as over-smoothness and color-saturation result from the intrinsic
deficiency of the supervision terms and reveal that the variance-reducing term
introduced by SDS is sub-optimal. Additionally, we shed light on the adoption
of large Classifier-Free Guidance (CFG) scale for 3D generation. Based on the
analysis, we propose a simple yet effective approach named Stable Score
Distillation (SSD) which strategically orchestrates each term for high-quality
3D generation. Extensive experiments validate the efficacy of our approach,
demonstrating its ability to generate high-fidelity 3D content without
succumbing to issues such as over-smoothness and over-saturation, even under
low CFG conditions with the most challenging NeRF representation.