A Eficácia Surpreendente dos Modelos de Difusão para Estimativa de Fluxo Óptico e Profundidade Monocular
The Surprising Effectiveness of Diffusion Models for Optical Flow and Monocular Depth Estimation
June 2, 2023
Autores: Saurabh Saxena, Charles Herrmann, Junhwa Hur, Abhishek Kar, Mohammad Norouzi, Deqing Sun, David J. Fleet
cs.AI
Resumo
Modelos probabilísticos de difusão para remoção de ruído revolucionaram a geração de imagens com sua impressionante fidelidade e diversidade. Mostramos que eles também se destacam na estimativa de fluxo óptico e profundidade monocular, surpreendentemente, sem arquiteturas e funções de perda específicas para essas tarefas, que são predominantes nesses contextos. Em comparação com as estimativas pontuais dos métodos convencionais baseados em regressão, os modelos de difusão também permitem inferência de Monte Carlo, por exemplo, capturando incerteza e ambiguidade no fluxo e na profundidade. Com pré-treinamento auto-supervisionado, o uso combinado de dados sintéticos e reais para treinamento supervisionado, e inovações técnicas (preenchimento e treinamento de difusão para remoção de ruído com desenrolamento de etapas) para lidar com dados de treinamento ruidosos e incompletos, além de uma forma simples de refinamento de grosseiro para fino, é possível treinar modelos de difusão de última geração para estimativa de profundidade e fluxo óptico. Experimentos extensivos focam no desempenho quantitativo em relação a benchmarks, ablações, e na capacidade do modelo de capturar incerteza e multimodalidade, além de imputar valores ausentes. Nosso modelo, DDVM (Denoising Diffusion Vision Model), alcança um erro relativo de profundidade de 0.074 no benchmark NYU indoor e uma taxa de outliers Fl-all de 3,26% no benchmark KITTI de fluxo óptico, cerca de 25% melhor que o melhor método publicado. Para uma visão geral, consulte https://diffusion-vision.github.io.
English
Denoising diffusion probabilistic models have transformed image generation
with their impressive fidelity and diversity. We show that they also excel in
estimating optical flow and monocular depth, surprisingly, without
task-specific architectures and loss functions that are predominant for these
tasks. Compared to the point estimates of conventional regression-based
methods, diffusion models also enable Monte Carlo inference, e.g., capturing
uncertainty and ambiguity in flow and depth. With self-supervised pre-training,
the combined use of synthetic and real data for supervised training, and
technical innovations (infilling and step-unrolled denoising diffusion
training) to handle noisy-incomplete training data, and a simple form of
coarse-to-fine refinement, one can train state-of-the-art diffusion models for
depth and optical flow estimation. Extensive experiments focus on quantitative
performance against benchmarks, ablations, and the model's ability to capture
uncertainty and multimodality, and impute missing values. Our model, DDVM
(Denoising Diffusion Vision Model), obtains a state-of-the-art relative depth
error of 0.074 on the indoor NYU benchmark and an Fl-all outlier rate of 3.26\%
on the KITTI optical flow benchmark, about 25\% better than the best published
method. For an overview see https://diffusion-vision.github.io.