Diffusione con Modelli Diretti: Risoluzione di Problemi Inversi Stocastici Senza Supervisione Diretta
Diffusion with Forward Models: Solving Stochastic Inverse Problems Without Direct Supervision
June 20, 2023
Autori: Ayush Tewari, Tianwei Yin, George Cazenavette, Semon Rezchikov, Joshua B. Tenenbaum, Frédo Durand, William T. Freeman, Vincent Sitzmann
cs.AI
Abstract
I modelli di diffusione per la riduzione del rumore sono una potente tipologia di modelli generativi utilizzati per catturare distribuzioni complesse di segnali del mondo reale. Tuttavia, la loro applicabilità è limitata a scenari in cui i campioni di addestramento sono facilmente disponibili, il che non è sempre il caso nelle applicazioni reali. Ad esempio, nella grafica inversa, l'obiettivo è generare campioni da una distribuzione di scene 3D che si allineano con una determinata immagine, ma le scene 3D di riferimento non sono disponibili e sono accessibili solo immagini 2D. Per affrontare questa limitazione, proponiamo una nuova classe di modelli probabilistici di diffusione per la riduzione del rumore che imparano a campionare da distribuzioni di segnali che non sono mai osservati direttamente. Invece, questi segnali vengono misurati indirettamente attraverso un modello diretto differenziabile noto, che produce osservazioni parziali del segnale sconosciuto. Il nostro approccio prevede l'integrazione diretta del modello diretto nel processo di riduzione del rumore. Questa integrazione collega efficacemente la modellazione generativa delle osservazioni con la modellazione generativa dei segnali sottostanti, consentendo l'addestramento end-to-end di un modello generativo condizionale sui segnali. Durante l'inferenza, il nostro approccio consente di campionare dalla distribuzione dei segnali sottostanti che sono coerenti con una determinata osservazione parziale. Dimostriamo l'efficacia del nostro metodo su tre impegnativi compiti di visione artificiale. Ad esempio, nel contesto della grafica inversa, il nostro modello consente di campionare direttamente dalla distribuzione di scene 3D che si allineano con una singola immagine 2D in input.
English
Denoising diffusion models are a powerful type of generative models used to
capture complex distributions of real-world signals. However, their
applicability is limited to scenarios where training samples are readily
available, which is not always the case in real-world applications. For
example, in inverse graphics, the goal is to generate samples from a
distribution of 3D scenes that align with a given image, but ground-truth 3D
scenes are unavailable and only 2D images are accessible. To address this
limitation, we propose a novel class of denoising diffusion probabilistic
models that learn to sample from distributions of signals that are never
directly observed. Instead, these signals are measured indirectly through a
known differentiable forward model, which produces partial observations of the
unknown signal. Our approach involves integrating the forward model directly
into the denoising process. This integration effectively connects the
generative modeling of observations with the generative modeling of the
underlying signals, allowing for end-to-end training of a conditional
generative model over signals. During inference, our approach enables sampling
from the distribution of underlying signals that are consistent with a given
partial observation. We demonstrate the effectiveness of our method on three
challenging computer vision tasks. For instance, in the context of inverse
graphics, our model enables direct sampling from the distribution of 3D scenes
that align with a single 2D input image.