フォワードモデルを用いた拡散:直接的な教師なしで確率的逆問題を解く
Diffusion with Forward Models: Solving Stochastic Inverse Problems Without Direct Supervision
June 20, 2023
著者: Ayush Tewari, Tianwei Yin, George Cazenavette, Semon Rezchikov, Joshua B. Tenenbaum, Frédo Durand, William T. Freeman, Vincent Sitzmann
cs.AI
要旨
ノイズ除去拡散モデルは、実世界の信号の複雑な分布を捉えるために使用される強力な生成モデルの一種です。しかし、その適用性は訓練サンプルが容易に利用可能なシナリオに限定されており、これは実世界のアプリケーションでは必ずしも当てはまりません。例えば、逆グラフィックスにおいては、与えられた画像と整合する3Dシーンの分布からサンプルを生成することが目標ですが、真の3Dシーンは利用不可能で、2D画像のみがアクセス可能です。この制限に対処するため、我々は直接観測されることのない信号の分布からサンプリングすることを学習する新しいクラスのノイズ除去拡散確率モデルを提案します。これらの信号は、既知の微分可能な順モデルを通じて間接的に測定され、未知の信号の部分的な観測を生成します。我々のアプローチは、順モデルをノイズ除去プロセスに直接統合することを含みます。この統合により、観測の生成モデリングと基礎となる信号の生成モデリングが効果的に結びつき、信号に対する条件付き生成モデルのエンドツーエンド訓練が可能になります。推論時には、我々のアプローチにより、与えられた部分的な観測と整合する基礎信号の分布からのサンプリングが可能になります。我々は、3つの挑戦的なコンピュータビジョンタスクにおいて、この手法の有効性を実証します。例えば、逆グラフィックスの文脈において、我々のモデルは、単一の2D入力画像と整合する3Dシーンの分布から直接サンプリングすることを可能にします。
English
Denoising diffusion models are a powerful type of generative models used to
capture complex distributions of real-world signals. However, their
applicability is limited to scenarios where training samples are readily
available, which is not always the case in real-world applications. For
example, in inverse graphics, the goal is to generate samples from a
distribution of 3D scenes that align with a given image, but ground-truth 3D
scenes are unavailable and only 2D images are accessible. To address this
limitation, we propose a novel class of denoising diffusion probabilistic
models that learn to sample from distributions of signals that are never
directly observed. Instead, these signals are measured indirectly through a
known differentiable forward model, which produces partial observations of the
unknown signal. Our approach involves integrating the forward model directly
into the denoising process. This integration effectively connects the
generative modeling of observations with the generative modeling of the
underlying signals, allowing for end-to-end training of a conditional
generative model over signals. During inference, our approach enables sampling
from the distribution of underlying signals that are consistent with a given
partial observation. We demonstrate the effectiveness of our method on three
challenging computer vision tasks. For instance, in the context of inverse
graphics, our model enables direct sampling from the distribution of 3D scenes
that align with a single 2D input image.