SteinDreamer: Varianzreduktion für die Text-zu-3D-Score-Destillation mittels Stein-Identität
SteinDreamer: Variance Reduction for Text-to-3D Score Distillation via Stein Identity
December 31, 2023
Autoren: Peihao Wang, Zhiwen Fan, Dejia Xu, Dilin Wang, Sreyas Mohan, Forrest Iandola, Rakesh Ranjan, Yilei Li, Qiang Liu, Zhangyang Wang, Vikas Chandra
cs.AI
Zusammenfassung
Score Distillation hat sich als einer der vorherrschenden Ansätze für die Text-zu-3D-Asset-Synthese etabliert. Im Wesentlichen aktualisiert Score Distillation 3D-Parameter, indem Scores über verschiedene Ansichten gehoben und rückpropagiert werden. In diesem Artikel zeigen wir, dass die Gradientenschätzung in Score Distillation inhärent mit hoher Varianz verbunden ist. Durch die Linse der Varianzreduktion kann die Wirksamkeit von SDS und VSD als Anwendung verschiedener Kontrollvariablen auf den Monte-Carlo-Schätzer des destillierten Scores interpretiert werden. Motiviert durch diese Neubetrachtung und basierend auf Steins Identität schlagen wir eine allgemeinere Lösung zur Varianzreduktion für Score Distillation vor, die als Stein Score Distillation (SSD) bezeichnet wird. SSD integriert Kontrollvariablen, die durch Steins Identität konstruiert werden und beliebige Baseline-Funktionen ermöglichen. Dies erlaubt es uns, flexible Leitprinzipien und Netzwerkarchitekturen einzubeziehen, um explizit auf Varianzreduktion zu optimieren. In unseren Experimenten wird die gesamte Pipeline, genannt SteinDreamer, durch die Instanziierung der Kontrollvariablen mit einem monokularen Tiefenschätzer implementiert. Die Ergebnisse deuten darauf hin, dass SSD die Destillationsvarianz effektiv reduzieren und die visuelle Qualität sowohl für die Objekt- als auch die Szenengenerierung konsistent verbessern kann. Darüber hinaus zeigen wir, dass SteinDreamer aufgrund stabilerer Gradientenaktualisierungen eine schnellere Konvergenz als bestehende Methoden erreicht.
English
Score distillation has emerged as one of the most prevalent approaches for
text-to-3D asset synthesis. Essentially, score distillation updates 3D
parameters by lifting and back-propagating scores averaged over different
views. In this paper, we reveal that the gradient estimation in score
distillation is inherent to high variance. Through the lens of variance
reduction, the effectiveness of SDS and VSD can be interpreted as applications
of various control variates to the Monte Carlo estimator of the distilled
score. Motivated by this rethinking and based on Stein's identity, we propose a
more general solution to reduce variance for score distillation, termed Stein
Score Distillation (SSD). SSD incorporates control variates constructed by
Stein identity, allowing for arbitrary baseline functions. This enables us to
include flexible guidance priors and network architectures to explicitly
optimize for variance reduction. In our experiments, the overall pipeline,
dubbed SteinDreamer, is implemented by instantiating the control variate with a
monocular depth estimator. The results suggest that SSD can effectively reduce
the distillation variance and consistently improve visual quality for both
object- and scene-level generation. Moreover, we demonstrate that SteinDreamer
achieves faster convergence than existing methods due to more stable gradient
updates.