SteinDreamer: Riduzione della Varianza per la Distillazione del Punteggio da Testo a 3D tramite l'Identità di Stein

Abstract

La distillazione del punteggio è emersa come uno degli approcci più diffusi per la sintesi di asset 3D da testo. In sostanza, la distillazione del punteggio aggiorna i parametri 3D sollevando e retro-propagando punteggi medi su diverse viste. In questo articolo, riveliamo che la stima del gradiente nella distillazione del punteggio è intrinsecamente soggetta ad alta varianza. Attraverso la lente della riduzione della varianza, l'efficacia di SDS e VSD può essere interpretata come l'applicazione di vari variabili di controllo all'estimatore Monte Carlo del punteggio distillato. Motivati da questa rilettura e basandoci sull'identità di Stein, proponiamo una soluzione più generale per ridurre la varianza nella distillazione del punteggio, denominata Stein Score Distillation (SSD). SSD incorpora variabili di controllo costruite tramite l'identità di Stein, consentendo l'uso di funzioni di base arbitrarie. Ciò ci permette di includere prior di guida flessibili e architetture di rete per ottimizzare esplicitamente la riduzione della varianza. Nei nostri esperimenti, l'intera pipeline, soprannominata SteinDreamer, è implementata istanziando la variabile di controllo con un estimatore di profondità monoculare. I risultati suggeriscono che SSD può ridurre efficacemente la varianza della distillazione e migliorare costantemente la qualità visiva sia per la generazione a livello di oggetto che di scena. Inoltre, dimostriamo che SteinDreamer raggiunge una convergenza più rapida rispetto ai metodi esistenti grazie a aggiornamenti del gradiente più stabili.

English

Score distillation has emerged as one of the most prevalent approaches for text-to-3D asset synthesis. Essentially, score distillation updates 3D parameters by lifting and back-propagating scores averaged over different views. In this paper, we reveal that the gradient estimation in score distillation is inherent to high variance. Through the lens of variance reduction, the effectiveness of SDS and VSD can be interpreted as applications of various control variates to the Monte Carlo estimator of the distilled score. Motivated by this rethinking and based on Stein's identity, we propose a more general solution to reduce variance for score distillation, termed Stein Score Distillation (SSD). SSD incorporates control variates constructed by Stein identity, allowing for arbitrary baseline functions. This enables us to include flexible guidance priors and network architectures to explicitly optimize for variance reduction. In our experiments, the overall pipeline, dubbed SteinDreamer, is implemented by instantiating the control variate with a monocular depth estimator. The results suggest that SSD can effectively reduce the distillation variance and consistently improve visual quality for both object- and scene-level generation. Moreover, we demonstrate that SteinDreamer achieves faster convergence than existing methods due to more stable gradient updates.

SteinDreamer: Riduzione della Varianza per la Distillazione del Punteggio da Testo a 3D tramite l'Identità di Stein

SteinDreamer: Variance Reduction for Text-to-3D Score Distillation via Stein Identity

Abstract

Support