ChatPaper.aiChatPaper

순방향 모델을 활용한 확산: 직접 감독 없이 확률적 역문제 해결하기

Diffusion with Forward Models: Solving Stochastic Inverse Problems Without Direct Supervision

June 20, 2023
저자: Ayush Tewari, Tianwei Yin, George Cazenavette, Semon Rezchikov, Joshua B. Tenenbaum, Frédo Durand, William T. Freeman, Vincent Sitzmann
cs.AI

초록

노이즈 제거 확산 모델(Denoising Diffusion Models)은 현실 세계 신호의 복잡한 분포를 포착하는 데 사용되는 강력한 생성 모델의 한 유형입니다. 그러나 이러한 모델의 적용 가능성은 훈련 샘플이 쉽게 구할 수 있는 시나리오로 제한되는데, 이는 현실 세계 응용에서 항상 가능한 것은 아닙니다. 예를 들어, 역 그래픽스(inverse graphics)에서는 주어진 이미지와 일치하는 3D 장면의 분포에서 샘플을 생성하는 것이 목표이지만, 실제 3D 장면은 사용할 수 없고 2D 이미지만 접근 가능한 경우가 많습니다. 이러한 한계를 해결하기 위해, 우리는 직접 관찰되지 않는 신호의 분포에서 샘플링하는 방법을 학습하는 새로운 유형의 노이즈 제거 확산 확률 모델을 제안합니다. 대신, 이러한 신호는 알려진 미분 가능한 순방향 모델(forward model)을 통해 간접적으로 측정되며, 이는 알려지지 않은 신호의 부분적인 관측값을 생성합니다. 우리의 접근 방식은 순방향 모델을 노이즈 제거 과정에 직접 통합하는 것을 포함합니다. 이 통합은 관측값의 생성 모델링과 기본 신호의 생성 모델링을 효과적으로 연결하여, 신호에 대한 조건부 생성 모델의 종단간(end-to-end) 훈련을 가능하게 합니다. 추론 과정에서 우리의 접근 방식은 주어진 부분 관측값과 일치하는 기본 신호의 분포에서 샘플링을 가능하게 합니다. 우리는 이 방법의 효과를 세 가지 도전적인 컴퓨터 비전 작업에서 입증합니다. 예를 들어, 역 그래픽스의 맥락에서 우리의 모델은 단일 2D 입력 이미지와 일치하는 3D 장면의 분포에서 직접 샘플링을 가능하게 합니다.
English
Denoising diffusion models are a powerful type of generative models used to capture complex distributions of real-world signals. However, their applicability is limited to scenarios where training samples are readily available, which is not always the case in real-world applications. For example, in inverse graphics, the goal is to generate samples from a distribution of 3D scenes that align with a given image, but ground-truth 3D scenes are unavailable and only 2D images are accessible. To address this limitation, we propose a novel class of denoising diffusion probabilistic models that learn to sample from distributions of signals that are never directly observed. Instead, these signals are measured indirectly through a known differentiable forward model, which produces partial observations of the unknown signal. Our approach involves integrating the forward model directly into the denoising process. This integration effectively connects the generative modeling of observations with the generative modeling of the underlying signals, allowing for end-to-end training of a conditional generative model over signals. During inference, our approach enables sampling from the distribution of underlying signals that are consistent with a given partial observation. We demonstrate the effectiveness of our method on three challenging computer vision tasks. For instance, in the context of inverse graphics, our model enables direct sampling from the distribution of 3D scenes that align with a single 2D input image.
PDF71December 15, 2024