Diffusion mit Vorwärtsmodellen: Lösung stochastischer inverser Probleme ohne direkte Überwachung
Diffusion with Forward Models: Solving Stochastic Inverse Problems Without Direct Supervision
June 20, 2023
Autoren: Ayush Tewari, Tianwei Yin, George Cazenavette, Semon Rezchikov, Joshua B. Tenenbaum, Frédo Durand, William T. Freeman, Vincent Sitzmann
cs.AI
Zusammenfassung
Denoising-Diffusionsmodelle sind eine leistungsstarke Art von generativen Modellen, die verwendet werden, um komplexe Verteilungen realer Signale zu erfassen. Ihre Anwendbarkeit ist jedoch auf Szenarien beschränkt, in denen Trainingsdaten leicht verfügbar sind, was in realen Anwendungen nicht immer der Fall ist. Zum Beispiel besteht das Ziel in der inversen Grafik darin, Stichproben aus einer Verteilung von 3D-Szenen zu generieren, die mit einem gegebenen Bild übereinstimmen, aber Ground-Truth-3D-Szenen sind nicht verfügbar, und nur 2D-Bilder sind zugänglich. Um diese Einschränkung zu überwinden, schlagen wir eine neue Klasse von Denoising-Diffusionswahrscheinlichkeitsmodellen vor, die lernen, aus Verteilungen von Signalen zu sampeln, die nie direkt beobachtet werden. Stattdessen werden diese Signale indirekt durch ein bekanntes differenzierbares Vorwärtsmodell gemessen, das partielle Beobachtungen des unbekannten Signals erzeugt. Unser Ansatz beinhaltet die direkte Integration des Vorwärtsmodells in den Denoising-Prozess. Diese Integration verbindet effektiv die generative Modellierung von Beobachtungen mit der generativen Modellierung der zugrunde liegenden Signale und ermöglicht ein end-to-end-Training eines bedingten generativen Modells über Signale. Während der Inferenz ermöglicht unser Ansatz das Sampling aus der Verteilung der zugrunde liegenden Signale, die mit einer gegebenen partiellen Beobachtung konsistent sind. Wir demonstrieren die Wirksamkeit unserer Methode anhand von drei anspruchsvollen Computer-Vision-Aufgaben. Zum Beispiel ermöglicht unser Modell im Kontext der inversen Grafik das direkte Sampling aus der Verteilung von 3D-Szenen, die mit einem einzelnen 2D-Eingabebild übereinstimmen.
English
Denoising diffusion models are a powerful type of generative models used to
capture complex distributions of real-world signals. However, their
applicability is limited to scenarios where training samples are readily
available, which is not always the case in real-world applications. For
example, in inverse graphics, the goal is to generate samples from a
distribution of 3D scenes that align with a given image, but ground-truth 3D
scenes are unavailable and only 2D images are accessible. To address this
limitation, we propose a novel class of denoising diffusion probabilistic
models that learn to sample from distributions of signals that are never
directly observed. Instead, these signals are measured indirectly through a
known differentiable forward model, which produces partial observations of the
unknown signal. Our approach involves integrating the forward model directly
into the denoising process. This integration effectively connects the
generative modeling of observations with the generative modeling of the
underlying signals, allowing for end-to-end training of a conditional
generative model over signals. During inference, our approach enables sampling
from the distribution of underlying signals that are consistent with a given
partial observation. We demonstrate the effectiveness of our method on three
challenging computer vision tasks. For instance, in the context of inverse
graphics, our model enables direct sampling from the distribution of 3D scenes
that align with a single 2D input image.