ChatPaper.aiChatPaper

Stabiele Score Distillatie voor Hoogwaardige 3D-generatie

Stable Score Distillation for High-Quality 3D Generation

December 14, 2023
Auteurs: Boshi Tang, Jianan Wang, Zhiyong Wu, Lei Zhang
cs.AI

Samenvatting

Score Distillation Sampling (SDS) heeft opmerkelijke prestaties getoond in de conditionele generatie van 3D-inhoud. Een diepgaand begrip van de SDS-formulering ontbreekt echter nog steeds, wat de ontwikkeling van 3D-generatie belemmert. In dit werk presenteren we een interpretatie van SDS als een combinatie van drie functionele componenten: mode-ontkoppelende, mode-zoekende en variantie-reducerende termen, en analyseren we de eigenschappen van elk. We laten zien dat problemen zoals overmatige gladheid en kleurverzadiging voortkomen uit de intrinsieke tekortkomingen van de supervisietermen en onthullen dat de variantie-reducerende term die door SDS wordt geïntroduceerd suboptimaal is. Daarnaast werpen we licht op het gebruik van een grote Classifier-Free Guidance (CFG)-schaal voor 3D-generatie. Op basis van de analyse stellen we een eenvoudige maar effectieve aanpak voor, genaamd Stable Score Distillation (SSD), die elk term strategisch coördineert voor hoogwaardige 3D-generatie. Uitgebreide experimenten valideren de effectiviteit van onze aanpak, waarbij wordt aangetoond dat het in staat is om hoogwaardige 3D-inhoud te genereren zonder te vervallen in problemen zoals overmatige gladheid en oververzadiging, zelfs onder lage CFG-omstandigheden met de meest uitdagende NeRF-representatie.
English
Score Distillation Sampling (SDS) has exhibited remarkable performance in conditional 3D content generation. However, a comprehensive understanding of the SDS formulation is still lacking, hindering the development of 3D generation. In this work, we present an interpretation of SDS as a combination of three functional components: mode-disengaging, mode-seeking and variance-reducing terms, and analyze the properties of each. We show that problems such as over-smoothness and color-saturation result from the intrinsic deficiency of the supervision terms and reveal that the variance-reducing term introduced by SDS is sub-optimal. Additionally, we shed light on the adoption of large Classifier-Free Guidance (CFG) scale for 3D generation. Based on the analysis, we propose a simple yet effective approach named Stable Score Distillation (SSD) which strategically orchestrates each term for high-quality 3D generation. Extensive experiments validate the efficacy of our approach, demonstrating its ability to generate high-fidelity 3D content without succumbing to issues such as over-smoothness and over-saturation, even under low CFG conditions with the most challenging NeRF representation.
PDF102December 15, 2024