Distillazione Stabile del Punteggio per la Generazione di Modelli 3D di Alta Qualità
Stable Score Distillation for High-Quality 3D Generation
December 14, 2023
Autori: Boshi Tang, Jianan Wang, Zhiyong Wu, Lei Zhang
cs.AI
Abstract
Il Score Distillation Sampling (SDS) ha dimostrato prestazioni notevoli nella generazione condizionata di contenuti 3D. Tuttavia, una comprensione completa della formulazione SDS è ancora carente, ostacolando lo sviluppo della generazione 3D. In questo lavoro, presentiamo un'interpretazione dell'SDS come una combinazione di tre componenti funzionali: termini di disimpegno modale, ricerca modale e riduzione della varianza, e analizziamo le proprietà di ciascuno. Mostriamo che problemi come l'eccessiva levigatezza e la saturazione dei colori derivano dalla carenza intrinseca dei termini di supervisione e riveliamo che il termine di riduzione della varianza introdotto dall'SDS è sub-ottimale. Inoltre, gettiamo luce sull'adozione di un'ampia scala Classifier-Free Guidance (CFG) per la generazione 3D. Sulla base dell'analisi, proponiamo un approccio semplice ma efficace denominato Stable Score Distillation (SSD) che orchestra strategicamente ciascun termine per una generazione 3D di alta qualità. Esperimenti estensivi convalidano l'efficacia del nostro approccio, dimostrando la sua capacità di generare contenuti 3D ad alta fedeltà senza incorrere in problemi come l'eccessiva levigatezza e la sovrasaturazione, anche in condizioni di bassa CFG con la rappresentazione NeRF più impegnativa.
English
Score Distillation Sampling (SDS) has exhibited remarkable performance in
conditional 3D content generation. However, a comprehensive understanding of
the SDS formulation is still lacking, hindering the development of 3D
generation. In this work, we present an interpretation of SDS as a combination
of three functional components: mode-disengaging, mode-seeking and
variance-reducing terms, and analyze the properties of each. We show that
problems such as over-smoothness and color-saturation result from the intrinsic
deficiency of the supervision terms and reveal that the variance-reducing term
introduced by SDS is sub-optimal. Additionally, we shed light on the adoption
of large Classifier-Free Guidance (CFG) scale for 3D generation. Based on the
analysis, we propose a simple yet effective approach named Stable Score
Distillation (SSD) which strategically orchestrates each term for high-quality
3D generation. Extensive experiments validate the efficacy of our approach,
demonstrating its ability to generate high-fidelity 3D content without
succumbing to issues such as over-smoothness and over-saturation, even under
low CFG conditions with the most challenging NeRF representation.