광학 흐름 및 단안 깊이 추정을 위한 확산 모델의 놀라운 효용성
The Surprising Effectiveness of Diffusion Models for Optical Flow and Monocular Depth Estimation
June 2, 2023
저자: Saurabh Saxena, Charles Herrmann, Junhwa Hur, Abhishek Kar, Mohammad Norouzi, Deqing Sun, David J. Fleet
cs.AI
초록
노이즈 제거 확산 확률 모델(Denoising Diffusion Probabilistic Models)은 놀라운 정확도와 다양성으로 이미지 생성 분야를 혁신적으로 변화시켰다. 본 연구에서는 이러한 모델이 특정 작업에 맞춤화된 아키텍처와 손실 함수 없이도 광학 흐름(optical flow)과 단안 깊이(monocular depth) 추정에서도 탁월한 성능을 보인다는 것을 입증한다. 기존의 회귀 기반 방법론이 제공하는 점 추정(point estimates)과 달리, 확산 모델은 몬테카로 추론(Monte Carlo inference)을 가능하게 하여 흐름과 깊이에서의 불확실성과 모호성을 포착할 수 있다. 자기 지도 사전 학습(self-supervised pre-training), 합성 데이터와 실제 데이터를 결합한 지도 학습(supervised training), 잡음이 많고 불완전한 학습 데이터를 처리하기 위한 기술적 혁신(예: 채우기(infilling) 및 단계별 노이즈 제거 학습(step-unrolled denoising diffusion training)), 그리고 간단한 형태의 coarse-to-fine 정제(coarse-to-fine refinement)를 통해 깊이와 광학 흐름 추정을 위한 최첨단 확산 모델을 학습할 수 있다. 본 연구는 벤치마크 대비 정량적 성능, 모델의 불확실성 및 다중 모드(multimodality) 포착 능력, 결측값 대체 능력에 대한 광범위한 실험을 수행한다. 우리의 모델인 DDVM(Denoising Diffusion Vision Model)은 실내 NYU 벤치마크에서 0.074의 최첨단 상대 깊이 오차(relative depth error)를, KITTI 광학 흐름 벤치마크에서 3.26%의 Fl-all 이상치 비율(Fl-all outlier rate)을 달성하여, 이전에 발표된 최고의 방법론보다 약 25% 우수한 성능을 보인다. 자세한 개요는 https://diffusion-vision.github.io에서 확인할 수 있다.
English
Denoising diffusion probabilistic models have transformed image generation
with their impressive fidelity and diversity. We show that they also excel in
estimating optical flow and monocular depth, surprisingly, without
task-specific architectures and loss functions that are predominant for these
tasks. Compared to the point estimates of conventional regression-based
methods, diffusion models also enable Monte Carlo inference, e.g., capturing
uncertainty and ambiguity in flow and depth. With self-supervised pre-training,
the combined use of synthetic and real data for supervised training, and
technical innovations (infilling and step-unrolled denoising diffusion
training) to handle noisy-incomplete training data, and a simple form of
coarse-to-fine refinement, one can train state-of-the-art diffusion models for
depth and optical flow estimation. Extensive experiments focus on quantitative
performance against benchmarks, ablations, and the model's ability to capture
uncertainty and multimodality, and impute missing values. Our model, DDVM
(Denoising Diffusion Vision Model), obtains a state-of-the-art relative depth
error of 0.074 on the indoor NYU benchmark and an Fl-all outlier rate of 3.26\%
on the KITTI optical flow benchmark, about 25\% better than the best published
method. For an overview see https://diffusion-vision.github.io.