Die überraschende Effektivität von Diffusionsmodellen für optischen Fluss und monokulare Tiefenschätzung
The Surprising Effectiveness of Diffusion Models for Optical Flow and Monocular Depth Estimation
June 2, 2023
Autoren: Saurabh Saxena, Charles Herrmann, Junhwa Hur, Abhishek Kar, Mohammad Norouzi, Deqing Sun, David J. Fleet
cs.AI
Zusammenfassung
Denoising-Diffusion-Wahrscheinlichkeitsmodelle haben die Bildgeneration durch ihre beeindruckende Detailtreue und Vielfalt revolutioniert. Wir zeigen, dass sie auch bei der Schätzung von optischem Fluss und monokularer Tiefe hervorragende Ergebnisse liefern – und das überraschenderweise ohne aufgabenspezifische Architekturen und Verlustfunktionen, die für diese Aufgaben üblich sind. Im Vergleich zu den Punkt-Schätzungen konventioneller regressionsbasierter Methoden ermöglichen Diffusionsmodelle auch Monte-Carlo-Inferenz, z. B. zur Erfassung von Unsicherheit und Mehrdeutigkeit in Fluss und Tiefe. Durch selbstüberwachtes Vor-Training, die kombinierte Nutzung von synthetischen und realen Daten für überwachtes Training sowie technische Innovationen (Infilling und Step-Unrolled Denoising Diffusion Training) zur Handhabung von verrauschten und unvollständigen Trainingsdaten sowie eine einfache Form der grob-zu-fein-Verfeinerung lassen sich state-of-the-art Diffusionsmodelle für die Schätzung von Tiefe und optischem Fluss trainieren. Umfangreiche Experimente konzentrieren sich auf die quantitative Leistung gegenüber Benchmarks, Ablationen sowie die Fähigkeit des Modells, Unsicherheit und Multimodalität zu erfassen und fehlende Werte zu imputieren. Unser Modell, DDVM (Denoising Diffusion Vision Model), erreicht einen state-of-the-art relativen Tiefenfehler von 0,074 auf dem Indoor-NYU-Benchmark und eine Fl-all-Ausreißerrate von 3,26 % auf dem KITTI-Optical-Flow-Benchmark, was etwa 25 % besser ist als die bisher beste veröffentlichte Methode. Für einen Überblick siehe https://diffusion-vision.github.io.
English
Denoising diffusion probabilistic models have transformed image generation
with their impressive fidelity and diversity. We show that they also excel in
estimating optical flow and monocular depth, surprisingly, without
task-specific architectures and loss functions that are predominant for these
tasks. Compared to the point estimates of conventional regression-based
methods, diffusion models also enable Monte Carlo inference, e.g., capturing
uncertainty and ambiguity in flow and depth. With self-supervised pre-training,
the combined use of synthetic and real data for supervised training, and
technical innovations (infilling and step-unrolled denoising diffusion
training) to handle noisy-incomplete training data, and a simple form of
coarse-to-fine refinement, one can train state-of-the-art diffusion models for
depth and optical flow estimation. Extensive experiments focus on quantitative
performance against benchmarks, ablations, and the model's ability to capture
uncertainty and multimodality, and impute missing values. Our model, DDVM
(Denoising Diffusion Vision Model), obtains a state-of-the-art relative depth
error of 0.074 on the indoor NYU benchmark and an Fl-all outlier rate of 3.26\%
on the KITTI optical flow benchmark, about 25\% better than the best published
method. For an overview see https://diffusion-vision.github.io.