DepthFM: Estimación Rápida de Profundidad Monocular con Emparejamiento de Flujo
DepthFM: Fast Monocular Depth Estimation with Flow Matching
March 20, 2024
Autores: Ming Gui, Johannes S. Fischer, Ulrich Prestel, Pingchuan Ma, Dmytro Kotovenko, Olga Grebenkova, Stefan Andreas Baumann, Vincent Tao Hu, Björn Ommer
cs.AI
Resumen
La estimación de profundidad monocular es crucial para numerosas tareas y aplicaciones de visión por computadora. Los enfoques discriminativos actuales para este problema están limitados debido a artefactos borrosos, mientras que los métodos generativos de última generación sufren de un muestreo lento debido a su naturaleza basada en ecuaciones diferenciales estocásticas (SDE). En lugar de comenzar desde ruido, buscamos un mapeo directo desde la imagen de entrada al mapa de profundidad. Observamos que esto puede formularse efectivamente utilizando emparejamiento de flujos, ya que sus trayectorias rectas a través del espacio de soluciones ofrecen eficiencia y alta calidad. Nuestro estudio demuestra que un modelo de difusión de imágenes preentrenado puede servir como un prior adecuado para un modelo de profundidad basado en emparejamiento de flujos, permitiendo un entrenamiento eficiente con solo datos sintéticos que generaliza a imágenes reales. Encontramos que una pérdida auxiliar de normales de superficie mejora aún más las estimaciones de profundidad. Debido a la naturaleza generativa de nuestro enfoque, nuestro modelo predice de manera confiable la certeza de sus estimaciones de profundidad. En benchmarks estándar de escenas naturales complejas, nuestro enfoque ligero exhibe un rendimiento de última generación con un bajo costo computacional favorable, a pesar de haber sido entrenado con pocos datos sintéticos.
English
Monocular depth estimation is crucial for numerous downstream vision tasks
and applications. Current discriminative approaches to this problem are limited
due to blurry artifacts, while state-of-the-art generative methods suffer from
slow sampling due to their SDE nature. Rather than starting from noise, we seek
a direct mapping from input image to depth map. We observe that this can be
effectively framed using flow matching, since its straight trajectories through
solution space offer efficiency and high quality. Our study demonstrates that a
pre-trained image diffusion model can serve as an adequate prior for a flow
matching depth model, allowing efficient training on only synthetic data to
generalize to real images. We find that an auxiliary surface normals loss
further improves the depth estimates. Due to the generative nature of our
approach, our model reliably predicts the confidence of its depth estimates. On
standard benchmarks of complex natural scenes, our lightweight approach
exhibits state-of-the-art performance at favorable low computational cost
despite only being trained on little synthetic data.Summary
AI-Generated Summary