L'efficacité surprenante des modèles de diffusion pour l'estimation du flux optique et de la profondeur monoculaire
The Surprising Effectiveness of Diffusion Models for Optical Flow and Monocular Depth Estimation
June 2, 2023
Auteurs: Saurabh Saxena, Charles Herrmann, Junhwa Hur, Abhishek Kar, Mohammad Norouzi, Deqing Sun, David J. Fleet
cs.AI
Résumé
Les modèles probabilistes de diffusion par débruitage ont révolutionné la génération d'images grâce à leur fidélité et leur diversité impressionnantes. Nous démontrons qu'ils excellent également dans l'estimation du flux optique et de la profondeur monoculaire, étonnamment sans architectures ni fonctions de perte spécifiques à ces tâches, pourtant prédominantes. Par rapport aux estimations ponctuelles des méthodes conventionnelles basées sur la régression, les modèles de diffusion permettent également une inférence de Monte Carlo, par exemple en captant l'incertitude et l'ambiguïté dans le flux et la profondeur. Avec un pré-entraînement auto-supervisé, l'utilisation combinée de données synthétiques et réelles pour l'entraînement supervisé, et des innovations techniques (remplissage et entraînement de diffusion par débruitage avec déroulement d'étapes) pour gérer les données d'entraînement bruyantes et incomplètes, ainsi qu'une forme simple de raffinement grossier à fin, il est possible d'entraîner des modèles de diffusion de pointe pour l'estimation de la profondeur et du flux optique. Des expériences approfondies se concentrent sur les performances quantitatives par rapport aux benchmarks, les ablations, et la capacité du modèle à capturer l'incertitude et la multimodalité, ainsi qu'à imputer les valeurs manquantes. Notre modèle, DDVM (Denoising Diffusion Vision Model), obtient une erreur relative de profondeur de pointe de 0,074 sur le benchmark NYU en intérieur et un taux d'erreur Fl-all de 3,26 % sur le benchmark KITTI pour le flux optique, soit environ 25 % de mieux que la meilleure méthode publiée. Pour un aperçu, voir https://diffusion-vision.github.io.
English
Denoising diffusion probabilistic models have transformed image generation
with their impressive fidelity and diversity. We show that they also excel in
estimating optical flow and monocular depth, surprisingly, without
task-specific architectures and loss functions that are predominant for these
tasks. Compared to the point estimates of conventional regression-based
methods, diffusion models also enable Monte Carlo inference, e.g., capturing
uncertainty and ambiguity in flow and depth. With self-supervised pre-training,
the combined use of synthetic and real data for supervised training, and
technical innovations (infilling and step-unrolled denoising diffusion
training) to handle noisy-incomplete training data, and a simple form of
coarse-to-fine refinement, one can train state-of-the-art diffusion models for
depth and optical flow estimation. Extensive experiments focus on quantitative
performance against benchmarks, ablations, and the model's ability to capture
uncertainty and multimodality, and impute missing values. Our model, DDVM
(Denoising Diffusion Vision Model), obtains a state-of-the-art relative depth
error of 0.074 on the indoor NYU benchmark and an Fl-all outlier rate of 3.26\%
on the KITTI optical flow benchmark, about 25\% better than the best published
method. For an overview see https://diffusion-vision.github.io.