Diffusion avec modèles directs : Résolution de problèmes inverses stochastiques sans supervision directe
Diffusion with Forward Models: Solving Stochastic Inverse Problems Without Direct Supervision
June 20, 2023
Auteurs: Ayush Tewari, Tianwei Yin, George Cazenavette, Semon Rezchikov, Joshua B. Tenenbaum, Frédo Durand, William T. Freeman, Vincent Sitzmann
cs.AI
Résumé
Les modèles de diffusion débruiteurs constituent une classe puissante de modèles génératifs utilisés pour capturer des distributions complexes de signaux du monde réel. Cependant, leur applicabilité est limitée aux scénarios où des échantillons d'entraînement sont facilement disponibles, ce qui n'est pas toujours le cas dans les applications réelles. Par exemple, en infographie inverse, l'objectif est de générer des échantillons à partir d'une distribution de scènes 3D qui s'alignent sur une image donnée, mais les scènes 3D de référence sont indisponibles et seules des images 2D sont accessibles. Pour pallier cette limitation, nous proposons une nouvelle classe de modèles probabilistes de diffusion débruiteurs qui apprennent à échantillonner à partir de distributions de signaux qui ne sont jamais directement observés. Au lieu de cela, ces signaux sont mesurés indirectement via un modèle direct différentiable connu, qui produit des observations partielles du signal inconnu. Notre approche consiste à intégrer directement le modèle direct dans le processus de débruitage. Cette intégration relie efficacement la modélisation générative des observations à la modélisation générative des signaux sous-jacents, permettant un entraînement de bout en bout d'un modèle génératif conditionnel sur les signaux. Lors de l'inférence, notre approche permet d'échantillonner à partir de la distribution des signaux sous-jacents qui sont cohérents avec une observation partielle donnée. Nous démontrons l'efficacité de notre méthode sur trois tâches complexes en vision par ordinateur. Par exemple, dans le contexte de l'infographie inverse, notre modèle permet d'échantillonner directement à partir de la distribution de scènes 3D qui s'alignent sur une seule image 2D en entrée.
English
Denoising diffusion models are a powerful type of generative models used to
capture complex distributions of real-world signals. However, their
applicability is limited to scenarios where training samples are readily
available, which is not always the case in real-world applications. For
example, in inverse graphics, the goal is to generate samples from a
distribution of 3D scenes that align with a given image, but ground-truth 3D
scenes are unavailable and only 2D images are accessible. To address this
limitation, we propose a novel class of denoising diffusion probabilistic
models that learn to sample from distributions of signals that are never
directly observed. Instead, these signals are measured indirectly through a
known differentiable forward model, which produces partial observations of the
unknown signal. Our approach involves integrating the forward model directly
into the denoising process. This integration effectively connects the
generative modeling of observations with the generative modeling of the
underlying signals, allowing for end-to-end training of a conditional
generative model over signals. During inference, our approach enables sampling
from the distribution of underlying signals that are consistent with a given
partial observation. We demonstrate the effectiveness of our method on three
challenging computer vision tasks. For instance, in the context of inverse
graphics, our model enables direct sampling from the distribution of 3D scenes
that align with a single 2D input image.