Difusão com Modelos Diretos: Resolução de Problemas Inversos Estocásticos sem Supervisão Direta

Resumo

Modelos de difusão de remoção de ruído são um tipo poderoso de modelos generativos utilizados para capturar distribuições complexas de sinais do mundo real. No entanto, sua aplicabilidade é limitada a cenários em que amostras de treinamento estão prontamente disponíveis, o que nem sempre é o caso em aplicações reais. Por exemplo, em gráficos inversos, o objetivo é gerar amostras a partir de uma distribuição de cenas 3D que se alinhem com uma imagem dada, mas cenas 3D de referência não estão disponíveis e apenas imagens 2D são acessíveis. Para abordar essa limitação, propomos uma nova classe de modelos probabilísticos de difusão de remoção de ruído que aprendem a amostrar a partir de distribuições de sinais que nunca são diretamente observados. Em vez disso, esses sinais são medidos indiretamente por meio de um modelo direto diferenciável conhecido, que produz observações parciais do sinal desconhecido. Nossa abordagem envolve a integração direta do modelo direto no processo de remoção de ruído. Essa integração conecta efetivamente a modelagem generativa de observações com a modelagem generativa dos sinais subjacentes, permitindo o treinamento de ponta a ponta de um modelo generativo condicional sobre sinais. Durante a inferência, nossa abordagem possibilita a amostragem a partir da distribuição de sinais subjacentes que são consistentes com uma observação parcial dada. Demonstramos a eficácia de nosso método em três tarefas desafiadoras de visão computacional. Por exemplo, no contexto de gráficos inversos, nosso modelo permite a amostragem direta a partir da distribuição de cenas 3D que se alinham com uma única imagem 2D de entrada.

English

Denoising diffusion models are a powerful type of generative models used to capture complex distributions of real-world signals. However, their applicability is limited to scenarios where training samples are readily available, which is not always the case in real-world applications. For example, in inverse graphics, the goal is to generate samples from a distribution of 3D scenes that align with a given image, but ground-truth 3D scenes are unavailable and only 2D images are accessible. To address this limitation, we propose a novel class of denoising diffusion probabilistic models that learn to sample from distributions of signals that are never directly observed. Instead, these signals are measured indirectly through a known differentiable forward model, which produces partial observations of the unknown signal. Our approach involves integrating the forward model directly into the denoising process. This integration effectively connects the generative modeling of observations with the generative modeling of the underlying signals, allowing for end-to-end training of a conditional generative model over signals. During inference, our approach enables sampling from the distribution of underlying signals that are consistent with a given partial observation. We demonstrate the effectiveness of our method on three challenging computer vision tasks. For instance, in the context of inverse graphics, our model enables direct sampling from the distribution of 3D scenes that align with a single 2D input image.

Difusão com Modelos Diretos: Resolução de Problemas Inversos Estocásticos sem Supervisão Direta

Diffusion with Forward Models: Solving Stochastic Inverse Problems Without Direct Supervision

Resumo

Support