Difusión con Modelos Directos: Resolución de Problemas Inversos Estocásticos Sin Supervisión Directa
Diffusion with Forward Models: Solving Stochastic Inverse Problems Without Direct Supervision
June 20, 2023
Autores: Ayush Tewari, Tianwei Yin, George Cazenavette, Semon Rezchikov, Joshua B. Tenenbaum, Frédo Durand, William T. Freeman, Vincent Sitzmann
cs.AI
Resumen
Los modelos de difusión para eliminación de ruido son un tipo potente de modelos generativos utilizados para capturar distribuciones complejas de señales del mundo real. Sin embargo, su aplicabilidad se limita a escenarios donde las muestras de entrenamiento están fácilmente disponibles, lo cual no siempre ocurre en aplicaciones del mundo real. Por ejemplo, en gráficos inversos, el objetivo es generar muestras a partir de una distribución de escenas 3D que coincidan con una imagen dada, pero las escenas 3D de referencia no están disponibles y solo se tiene acceso a imágenes 2D. Para abordar esta limitación, proponemos una nueva clase de modelos probabilísticos de difusión para eliminación de ruido que aprenden a muestrear a partir de distribuciones de señales que nunca se observan directamente. En su lugar, estas señales se miden indirectamente a través de un modelo directo diferenciable conocido, que produce observaciones parciales de la señal desconocida. Nuestro enfoque implica integrar el modelo directo directamente en el proceso de eliminación de ruido. Esta integración conecta efectivamente el modelado generativo de observaciones con el modelado generativo de las señales subyacentes, permitiendo el entrenamiento de extremo a extremo de un modelo generativo condicional sobre señales. Durante la inferencia, nuestro enfoque permite muestrear a partir de la distribución de señales subyacentes que son consistentes con una observación parcial dada. Demostramos la efectividad de nuestro método en tres tareas desafiantes de visión por computadora. Por ejemplo, en el contexto de gráficos inversos, nuestro modelo permite muestrear directamente a partir de la distribución de escenas 3D que coinciden con una única imagen 2D de entrada.
English
Denoising diffusion models are a powerful type of generative models used to
capture complex distributions of real-world signals. However, their
applicability is limited to scenarios where training samples are readily
available, which is not always the case in real-world applications. For
example, in inverse graphics, the goal is to generate samples from a
distribution of 3D scenes that align with a given image, but ground-truth 3D
scenes are unavailable and only 2D images are accessible. To address this
limitation, we propose a novel class of denoising diffusion probabilistic
models that learn to sample from distributions of signals that are never
directly observed. Instead, these signals are measured indirectly through a
known differentiable forward model, which produces partial observations of the
unknown signal. Our approach involves integrating the forward model directly
into the denoising process. This integration effectively connects the
generative modeling of observations with the generative modeling of the
underlying signals, allowing for end-to-end training of a conditional
generative model over signals. During inference, our approach enables sampling
from the distribution of underlying signals that are consistent with a given
partial observation. We demonstrate the effectiveness of our method on three
challenging computer vision tasks. For instance, in the context of inverse
graphics, our model enables direct sampling from the distribution of 3D scenes
that align with a single 2D input image.