L'efficacité surprenante des modèles de diffusion pour l'estimation du flux optique et de la profondeur monoculaire

Résumé

Les modèles probabilistes de diffusion par débruitage ont révolutionné la génération d'images grâce à leur fidélité et leur diversité impressionnantes. Nous démontrons qu'ils excellent également dans l'estimation du flux optique et de la profondeur monoculaire, étonnamment sans architectures ni fonctions de perte spécifiques à ces tâches, pourtant prédominantes. Par rapport aux estimations ponctuelles des méthodes conventionnelles basées sur la régression, les modèles de diffusion permettent également une inférence de Monte Carlo, par exemple en captant l'incertitude et l'ambiguïté dans le flux et la profondeur. Avec un pré-entraînement auto-supervisé, l'utilisation combinée de données synthétiques et réelles pour l'entraînement supervisé, et des innovations techniques (remplissage et entraînement de diffusion par débruitage avec déroulement d'étapes) pour gérer les données d'entraînement bruyantes et incomplètes, ainsi qu'une forme simple de raffinement grossier à fin, il est possible d'entraîner des modèles de diffusion de pointe pour l'estimation de la profondeur et du flux optique. Des expériences approfondies se concentrent sur les performances quantitatives par rapport aux benchmarks, les ablations, et la capacité du modèle à capturer l'incertitude et la multimodalité, ainsi qu'à imputer les valeurs manquantes. Notre modèle, DDVM (Denoising Diffusion Vision Model), obtient une erreur relative de profondeur de pointe de 0,074 sur le benchmark NYU en intérieur et un taux d'erreur Fl-all de 3,26 % sur le benchmark KITTI pour le flux optique, soit environ 25 % de mieux que la meilleure méthode publiée. Pour un aperçu, voir https://diffusion-vision.github.io.

English

Denoising diffusion probabilistic models have transformed image generation with their impressive fidelity and diversity. We show that they also excel in estimating optical flow and monocular depth, surprisingly, without task-specific architectures and loss functions that are predominant for these tasks. Compared to the point estimates of conventional regression-based methods, diffusion models also enable Monte Carlo inference, e.g., capturing uncertainty and ambiguity in flow and depth. With self-supervised pre-training, the combined use of synthetic and real data for supervised training, and technical innovations (infilling and step-unrolled denoising diffusion training) to handle noisy-incomplete training data, and a simple form of coarse-to-fine refinement, one can train state-of-the-art diffusion models for depth and optical flow estimation. Extensive experiments focus on quantitative performance against benchmarks, ablations, and the model's ability to capture uncertainty and multimodality, and impute missing values. Our model, DDVM (Denoising Diffusion Vision Model), obtains a state-of-the-art relative depth error of 0.074 on the indoor NYU benchmark and an Fl-all outlier rate of 3.26\% on the KITTI optical flow benchmark, about 25\% better than the best published method. For an overview see https://diffusion-vision.github.io.

L'efficacité surprenante des modèles de diffusion pour l'estimation du flux optique et de la profondeur monoculaire

The Surprising Effectiveness of Diffusion Models for Optical Flow and Monocular Depth Estimation

Résumé

Support