SteinDreamer: スティーン恒等式によるテキストから3Dへのスコア蒸留のための分散低減
SteinDreamer: Variance Reduction for Text-to-3D Score Distillation via Stein Identity
December 31, 2023
著者: Peihao Wang, Zhiwen Fan, Dejia Xu, Dilin Wang, Sreyas Mohan, Forrest Iandola, Rakesh Ranjan, Yilei Li, Qiang Liu, Zhangyang Wang, Vikas Chandra
cs.AI
要旨
スコア蒸留は、テキストから3Dアセットを合成するための最も一般的なアプローチの一つとして登場しました。本質的に、スコア蒸留は、異なる視点で平均化されたスコアをリフトし、逆伝播させることで3Dパラメータを更新します。本論文では、スコア蒸留における勾配推定が本質的に高い分散を伴うことを明らかにします。分散低減の観点から、SDSとVSDの有効性は、蒸留スコアのモンテカルロ推定器に対する様々な制御変数の適用として解釈できます。この再考に基づき、Steinの恒等式を基に、スコア蒸留の分散を低減するためのより一般的な解決策を提案します。これをSteinスコア蒸留(SSD)と呼びます。SSDは、Steinの恒等式によって構築された制御変数を組み込み、任意のベースライン関数を可能にします。これにより、柔軟なガイダンス事前分布やネットワークアーキテクチャを含めて、分散低減を明示的に最適化することが可能になります。実験では、制御変数を単眼深度推定器で具体化したSteinDreamerというパイプラインを実装しました。結果は、SSDが蒸留分散を効果的に低減し、オブジェクトレベルとシーンレベルの生成において視覚品質を一貫して向上させることを示しています。さらに、SteinDreamerがより安定した勾配更新により、既存の手法よりも速く収束することを実証しました。
English
Score distillation has emerged as one of the most prevalent approaches for
text-to-3D asset synthesis. Essentially, score distillation updates 3D
parameters by lifting and back-propagating scores averaged over different
views. In this paper, we reveal that the gradient estimation in score
distillation is inherent to high variance. Through the lens of variance
reduction, the effectiveness of SDS and VSD can be interpreted as applications
of various control variates to the Monte Carlo estimator of the distilled
score. Motivated by this rethinking and based on Stein's identity, we propose a
more general solution to reduce variance for score distillation, termed Stein
Score Distillation (SSD). SSD incorporates control variates constructed by
Stein identity, allowing for arbitrary baseline functions. This enables us to
include flexible guidance priors and network architectures to explicitly
optimize for variance reduction. In our experiments, the overall pipeline,
dubbed SteinDreamer, is implemented by instantiating the control variate with a
monocular depth estimator. The results suggest that SSD can effectively reduce
the distillation variance and consistently improve visual quality for both
object- and scene-level generation. Moreover, we demonstrate that SteinDreamer
achieves faster convergence than existing methods due to more stable gradient
updates.