De verrassende effectiviteit van diffusiemodellen voor optische stroming en monocular diepteschatting
The Surprising Effectiveness of Diffusion Models for Optical Flow and Monocular Depth Estimation
June 2, 2023
Auteurs: Saurabh Saxena, Charles Herrmann, Junhwa Hur, Abhishek Kar, Mohammad Norouzi, Deqing Sun, David J. Fleet
cs.AI
Samenvatting
Denoising diffusion probabilistische modellen hebben beeldgeneratie getransformeerd met hun indrukwekkende nauwkeurigheid en diversiteit. We tonen aan dat ze ook uitblinken in het schatten van optische flow en monoculaire diepte, verrassend genoeg zonder taakspecifieke architecturen en verliesfuncties die gebruikelijk zijn voor deze taken. In vergelijking met de puntschattingen van conventionele regressiegebaseerde methoden, maken diffusiemodellen ook Monte Carlo-inferentie mogelijk, bijvoorbeeld door onzekerheid en ambiguïteit in flow en diepte vast te leggen. Met zelfgesuperviseerde voorafgaande training, het gecombineerde gebruik van synthetische en echte data voor gesuperviseerde training, en technische innovaties (infilling en step-unrolled denoising diffusion training) om ruwige en onvolledige trainingsdata aan te pakken, en een eenvoudige vorm van coarse-to-fine verfijning, kan men state-of-the-art diffusiemodellen trainen voor diepte- en optische flow-schatting. Uitgebreide experimenten richten zich op kwantitatieve prestaties ten opzichte van benchmarks, ablations, en het vermogen van het model om onzekerheid en multimodaliteit vast te leggen, en ontbrekende waarden in te vullen. Ons model, DDVM (Denoising Diffusion Vision Model), behaalt een state-of-the-art relatieve dieptefout van 0.074 op de indoor NYU-benchmark en een Fl-all outlier rate van 3,26\% op de KITTI optische flow-benchmark, ongeveer 25\% beter dan de beste gepubliceerde methode. Voor een overzicht zie https://diffusion-vision.github.io.
English
Denoising diffusion probabilistic models have transformed image generation
with their impressive fidelity and diversity. We show that they also excel in
estimating optical flow and monocular depth, surprisingly, without
task-specific architectures and loss functions that are predominant for these
tasks. Compared to the point estimates of conventional regression-based
methods, diffusion models also enable Monte Carlo inference, e.g., capturing
uncertainty and ambiguity in flow and depth. With self-supervised pre-training,
the combined use of synthetic and real data for supervised training, and
technical innovations (infilling and step-unrolled denoising diffusion
training) to handle noisy-incomplete training data, and a simple form of
coarse-to-fine refinement, one can train state-of-the-art diffusion models for
depth and optical flow estimation. Extensive experiments focus on quantitative
performance against benchmarks, ablations, and the model's ability to capture
uncertainty and multimodality, and impute missing values. Our model, DDVM
(Denoising Diffusion Vision Model), obtains a state-of-the-art relative depth
error of 0.074 on the indoor NYU benchmark and an Fl-all outlier rate of 3.26\%
on the KITTI optical flow benchmark, about 25\% better than the best published
method. For an overview see https://diffusion-vision.github.io.