ChatPaper.aiChatPaper

Distillazione Stabile del Punteggio per la Generazione di Modelli 3D di Alta Qualità

Stable Score Distillation for High-Quality 3D Generation

December 14, 2023
Autori: Boshi Tang, Jianan Wang, Zhiyong Wu, Lei Zhang
cs.AI

Abstract

Il Score Distillation Sampling (SDS) ha dimostrato prestazioni notevoli nella generazione condizionata di contenuti 3D. Tuttavia, una comprensione completa della formulazione SDS è ancora carente, ostacolando lo sviluppo della generazione 3D. In questo lavoro, presentiamo un'interpretazione dell'SDS come una combinazione di tre componenti funzionali: termini di disimpegno modale, ricerca modale e riduzione della varianza, e analizziamo le proprietà di ciascuno. Mostriamo che problemi come l'eccessiva levigatezza e la saturazione dei colori derivano dalla carenza intrinseca dei termini di supervisione e riveliamo che il termine di riduzione della varianza introdotto dall'SDS è sub-ottimale. Inoltre, gettiamo luce sull'adozione di un'ampia scala Classifier-Free Guidance (CFG) per la generazione 3D. Sulla base dell'analisi, proponiamo un approccio semplice ma efficace denominato Stable Score Distillation (SSD) che orchestra strategicamente ciascun termine per una generazione 3D di alta qualità. Esperimenti estensivi convalidano l'efficacia del nostro approccio, dimostrando la sua capacità di generare contenuti 3D ad alta fedeltà senza incorrere in problemi come l'eccessiva levigatezza e la sovrasaturazione, anche in condizioni di bassa CFG con la rappresentazione NeRF più impegnativa.
English
Score Distillation Sampling (SDS) has exhibited remarkable performance in conditional 3D content generation. However, a comprehensive understanding of the SDS formulation is still lacking, hindering the development of 3D generation. In this work, we present an interpretation of SDS as a combination of three functional components: mode-disengaging, mode-seeking and variance-reducing terms, and analyze the properties of each. We show that problems such as over-smoothness and color-saturation result from the intrinsic deficiency of the supervision terms and reveal that the variance-reducing term introduced by SDS is sub-optimal. Additionally, we shed light on the adoption of large Classifier-Free Guidance (CFG) scale for 3D generation. Based on the analysis, we propose a simple yet effective approach named Stable Score Distillation (SSD) which strategically orchestrates each term for high-quality 3D generation. Extensive experiments validate the efficacy of our approach, demonstrating its ability to generate high-fidelity 3D content without succumbing to issues such as over-smoothness and over-saturation, even under low CFG conditions with the most challenging NeRF representation.
PDF102December 15, 2024