SteinDreamer : Réduction de la variance pour la distillation de scores texte-3D via l'identité de Stein
SteinDreamer: Variance Reduction for Text-to-3D Score Distillation via Stein Identity
December 31, 2023
Auteurs: Peihao Wang, Zhiwen Fan, Dejia Xu, Dilin Wang, Sreyas Mohan, Forrest Iandola, Rakesh Ranjan, Yilei Li, Qiang Liu, Zhangyang Wang, Vikas Chandra
cs.AI
Résumé
La distillation de score est devenue l'une des approches les plus répandues pour la synthèse d'actifs 3D à partir de texte. Fondamentalement, la distillation de score met à jour les paramètres 3D en projetant et en rétropropagant des scores moyennés sur différentes vues. Dans cet article, nous révélons que l'estimation du gradient dans la distillation de score est intrinsèquement sujette à une variance élevée. À travers le prisme de la réduction de variance, l'efficacité de SDS et de VSD peut être interprétée comme l'application de divers variateurs de contrôle à l'estimateur Monte Carlo du score distillé. Motivés par cette réflexion et basés sur l'identité de Stein, nous proposons une solution plus générale pour réduire la variance dans la distillation de score, appelée Stein Score Distillation (SSD). SSD intègre des variateurs de contrôle construits à partir de l'identité de Stein, permettant l'utilisation de fonctions de référence arbitraires. Cela nous permet d'inclure des priors de guidage flexibles et des architectures de réseau pour optimiser explicitement la réduction de variance. Dans nos expériences, le pipeline global, nommé SteinDreamer, est implémenté en instanciant le variateur de contrôle avec un estimateur de profondeur monoculaire. Les résultats suggèrent que SSD peut efficacement réduire la variance de distillation et améliorer de manière constante la qualité visuelle pour la génération à la fois d'objets et de scènes. De plus, nous démontrons que SteinDreamer atteint une convergence plus rapide que les méthodes existantes grâce à des mises à jour de gradient plus stables.
English
Score distillation has emerged as one of the most prevalent approaches for
text-to-3D asset synthesis. Essentially, score distillation updates 3D
parameters by lifting and back-propagating scores averaged over different
views. In this paper, we reveal that the gradient estimation in score
distillation is inherent to high variance. Through the lens of variance
reduction, the effectiveness of SDS and VSD can be interpreted as applications
of various control variates to the Monte Carlo estimator of the distilled
score. Motivated by this rethinking and based on Stein's identity, we propose a
more general solution to reduce variance for score distillation, termed Stein
Score Distillation (SSD). SSD incorporates control variates constructed by
Stein identity, allowing for arbitrary baseline functions. This enables us to
include flexible guidance priors and network architectures to explicitly
optimize for variance reduction. In our experiments, the overall pipeline,
dubbed SteinDreamer, is implemented by instantiating the control variate with a
monocular depth estimator. The results suggest that SSD can effectively reduce
the distillation variance and consistently improve visual quality for both
object- and scene-level generation. Moreover, we demonstrate that SteinDreamer
achieves faster convergence than existing methods due to more stable gradient
updates.