ChatPaper.aiChatPaper

Diffusion avec modèles directs : Résolution de problèmes inverses stochastiques sans supervision directe

Diffusion with Forward Models: Solving Stochastic Inverse Problems Without Direct Supervision

June 20, 2023
Auteurs: Ayush Tewari, Tianwei Yin, George Cazenavette, Semon Rezchikov, Joshua B. Tenenbaum, Frédo Durand, William T. Freeman, Vincent Sitzmann
cs.AI

Résumé

Les modèles de diffusion débruiteurs constituent une classe puissante de modèles génératifs utilisés pour capturer des distributions complexes de signaux du monde réel. Cependant, leur applicabilité est limitée aux scénarios où des échantillons d'entraînement sont facilement disponibles, ce qui n'est pas toujours le cas dans les applications réelles. Par exemple, en infographie inverse, l'objectif est de générer des échantillons à partir d'une distribution de scènes 3D qui s'alignent sur une image donnée, mais les scènes 3D de référence sont indisponibles et seules des images 2D sont accessibles. Pour pallier cette limitation, nous proposons une nouvelle classe de modèles probabilistes de diffusion débruiteurs qui apprennent à échantillonner à partir de distributions de signaux qui ne sont jamais directement observés. Au lieu de cela, ces signaux sont mesurés indirectement via un modèle direct différentiable connu, qui produit des observations partielles du signal inconnu. Notre approche consiste à intégrer directement le modèle direct dans le processus de débruitage. Cette intégration relie efficacement la modélisation générative des observations à la modélisation générative des signaux sous-jacents, permettant un entraînement de bout en bout d'un modèle génératif conditionnel sur les signaux. Lors de l'inférence, notre approche permet d'échantillonner à partir de la distribution des signaux sous-jacents qui sont cohérents avec une observation partielle donnée. Nous démontrons l'efficacité de notre méthode sur trois tâches complexes en vision par ordinateur. Par exemple, dans le contexte de l'infographie inverse, notre modèle permet d'échantillonner directement à partir de la distribution de scènes 3D qui s'alignent sur une seule image 2D en entrée.
English
Denoising diffusion models are a powerful type of generative models used to capture complex distributions of real-world signals. However, their applicability is limited to scenarios where training samples are readily available, which is not always the case in real-world applications. For example, in inverse graphics, the goal is to generate samples from a distribution of 3D scenes that align with a given image, but ground-truth 3D scenes are unavailable and only 2D images are accessible. To address this limitation, we propose a novel class of denoising diffusion probabilistic models that learn to sample from distributions of signals that are never directly observed. Instead, these signals are measured indirectly through a known differentiable forward model, which produces partial observations of the unknown signal. Our approach involves integrating the forward model directly into the denoising process. This integration effectively connects the generative modeling of observations with the generative modeling of the underlying signals, allowing for end-to-end training of a conditional generative model over signals. During inference, our approach enables sampling from the distribution of underlying signals that are consistent with a given partial observation. We demonstrate the effectiveness of our method on three challenging computer vision tasks. For instance, in the context of inverse graphics, our model enables direct sampling from the distribution of 3D scenes that align with a single 2D input image.
PDF71December 15, 2024