ChatPaper.aiChatPaper

La sorprendente efectividad de los modelos de difusión para el flujo óptico y la estimación de profundidad monocular

The Surprising Effectiveness of Diffusion Models for Optical Flow and Monocular Depth Estimation

June 2, 2023
Autores: Saurabh Saxena, Charles Herrmann, Junhwa Hur, Abhishek Kar, Mohammad Norouzi, Deqing Sun, David J. Fleet
cs.AI

Resumen

Los modelos probabilísticos de difusión para eliminación de ruido han revolucionado la generación de imágenes con su impresionante fidelidad y diversidad. Demostramos que también sobresalen en la estimación de flujo óptico y profundidad monocular, sorprendentemente, sin arquitecturas y funciones de pérdida específicas para estas tareas, que predominan en estos campos. En comparación con las estimaciones puntuales de los métodos convencionales basados en regresión, los modelos de difusión también permiten inferencia de Monte Carlo, por ejemplo, capturando incertidumbre y ambigüedad en el flujo y la profundidad. Con preentrenamiento autosupervisado, el uso combinado de datos sintéticos y reales para el entrenamiento supervisado, e innovaciones técnicas (relleno y entrenamiento de difusión para eliminación de ruido con desenrollado de pasos) para manejar datos de entrenamiento ruidosos e incompletos, y una forma simple de refinamiento de grueso a fino, se pueden entrenar modelos de difusión de vanguardia para la estimación de profundidad y flujo óptico. Experimentos extensos se centran en el rendimiento cuantitativo frente a puntos de referencia, ablaciones, y la capacidad del modelo para capturar incertidumbre y multimodalidad, e imputar valores faltantes. Nuestro modelo, DDVM (Denoising Diffusion Vision Model), obtiene un error relativo de profundidad de vanguardia de 0.074 en el punto de referencia NYU para interiores y una tasa de valores atípicos Fl-all del 3.26\% en el punto de referencia KITTI para flujo óptico, aproximadamente un 25\% mejor que el mejor método publicado. Para una visión general, consulte https://diffusion-vision.github.io.
English
Denoising diffusion probabilistic models have transformed image generation with their impressive fidelity and diversity. We show that they also excel in estimating optical flow and monocular depth, surprisingly, without task-specific architectures and loss functions that are predominant for these tasks. Compared to the point estimates of conventional regression-based methods, diffusion models also enable Monte Carlo inference, e.g., capturing uncertainty and ambiguity in flow and depth. With self-supervised pre-training, the combined use of synthetic and real data for supervised training, and technical innovations (infilling and step-unrolled denoising diffusion training) to handle noisy-incomplete training data, and a simple form of coarse-to-fine refinement, one can train state-of-the-art diffusion models for depth and optical flow estimation. Extensive experiments focus on quantitative performance against benchmarks, ablations, and the model's ability to capture uncertainty and multimodality, and impute missing values. Our model, DDVM (Denoising Diffusion Vision Model), obtains a state-of-the-art relative depth error of 0.074 on the indoor NYU benchmark and an Fl-all outlier rate of 3.26\% on the KITTI optical flow benchmark, about 25\% better than the best published method. For an overview see https://diffusion-vision.github.io.
PDF30December 15, 2024