La sorprendente efficacia dei modelli di diffusione per il flusso ottico e la stima della profondità monoculare
The Surprising Effectiveness of Diffusion Models for Optical Flow and Monocular Depth Estimation
June 2, 2023
Autori: Saurabh Saxena, Charles Herrmann, Junhwa Hur, Abhishek Kar, Mohammad Norouzi, Deqing Sun, David J. Fleet
cs.AI
Abstract
I modelli probabilistici di diffusione denoising hanno rivoluzionato la generazione di immagini grazie alla loro impressionante fedeltà e diversità. Dimostriamo che eccellono anche nella stima del flusso ottico e della profondità monoculare, sorprendentemente, senza l'uso di architetture e funzioni di perdita specifiche per questi compiti, che sono invece predominanti. Rispetto alle stime puntuali dei metodi convenzionali basati sulla regressione, i modelli di diffusione consentono anche l'inferenza Monte Carlo, ad esempio, catturando incertezza e ambiguità nel flusso e nella profondità. Con un pre-addestramento auto-supervisionato, l'uso combinato di dati sintetici e reali per l'addestramento supervisionato, e innovazioni tecniche (come il riempimento e l'addestramento di diffusione denoising con srotolamento dei passi) per gestire dati di addestramento rumorosi e incompleti, e una semplice forma di raffinamento da grossolano a fine, è possibile addestrare modelli di diffusione all'avanguardia per la stima della profondità e del flusso ottico. Esperimenti estesi si concentrano sulle prestazioni quantitative rispetto ai benchmark, sulle ablazioni, e sulla capacità del modello di catturare incertezza e multimodalità, e di imputare valori mancanti. Il nostro modello, DDVM (Denoising Diffusion Vision Model), ottiene un errore relativo di profondità all'avanguardia di 0.074 sul benchmark indoor NYU e un tasso di outlier Fl-all del 3.26% sul benchmark KITTI per il flusso ottico, circa il 25% migliore rispetto al miglior metodo pubblicato. Per una panoramica, consultare https://diffusion-vision.github.io.
English
Denoising diffusion probabilistic models have transformed image generation
with their impressive fidelity and diversity. We show that they also excel in
estimating optical flow and monocular depth, surprisingly, without
task-specific architectures and loss functions that are predominant for these
tasks. Compared to the point estimates of conventional regression-based
methods, diffusion models also enable Monte Carlo inference, e.g., capturing
uncertainty and ambiguity in flow and depth. With self-supervised pre-training,
the combined use of synthetic and real data for supervised training, and
technical innovations (infilling and step-unrolled denoising diffusion
training) to handle noisy-incomplete training data, and a simple form of
coarse-to-fine refinement, one can train state-of-the-art diffusion models for
depth and optical flow estimation. Extensive experiments focus on quantitative
performance against benchmarks, ablations, and the model's ability to capture
uncertainty and multimodality, and impute missing values. Our model, DDVM
(Denoising Diffusion Vision Model), obtains a state-of-the-art relative depth
error of 0.074 on the indoor NYU benchmark and an Fl-all outlier rate of 3.26\%
on the KITTI optical flow benchmark, about 25\% better than the best published
method. For an overview see https://diffusion-vision.github.io.