ChatPaper.aiChatPaper

DepthFM : Estimation rapide de la profondeur monoculaire par correspondance de flux

DepthFM: Fast Monocular Depth Estimation with Flow Matching

March 20, 2024
Auteurs: Ming Gui, Johannes S. Fischer, Ulrich Prestel, Pingchuan Ma, Dmytro Kotovenko, Olga Grebenkova, Stefan Andreas Baumann, Vincent Tao Hu, Björn Ommer
cs.AI

Résumé

L'estimation de la profondeur monoculaire est cruciale pour de nombreuses tâches et applications en vision par ordinateur. Les approches discriminatives actuelles pour ce problème sont limitées par des artefacts flous, tandis que les méthodes génératives de pointe souffrent d'un échantillonnage lent en raison de leur nature basée sur des équations différentielles stochastiques (SDE). Plutôt que de partir du bruit, nous cherchons une correspondance directe entre l'image d'entrée et la carte de profondeur. Nous observons que cela peut être efficacement formulé en utilisant le "flow matching", car ses trajectoires directes à travers l'espace des solutions offrent à la fois efficacité et haute qualité. Notre étude démontre qu'un modèle de diffusion d'images pré-entraîné peut servir de prior adéquat pour un modèle de profondeur basé sur le "flow matching", permettant un entraînement efficace sur des données synthétiques uniquement tout en généralisant aux images réelles. Nous constatons qu'une perte auxiliaire sur les normales de surface améliore encore les estimations de profondeur. Grâce à la nature générative de notre approche, notre modèle prédit de manière fiable la confiance de ses estimations de profondeur. Sur des benchmarks standards de scènes naturelles complexes, notre approche légère atteint des performances de pointe avec un faible coût computationnel, malgré un entraînement sur peu de données synthétiques.
English
Monocular depth estimation is crucial for numerous downstream vision tasks and applications. Current discriminative approaches to this problem are limited due to blurry artifacts, while state-of-the-art generative methods suffer from slow sampling due to their SDE nature. Rather than starting from noise, we seek a direct mapping from input image to depth map. We observe that this can be effectively framed using flow matching, since its straight trajectories through solution space offer efficiency and high quality. Our study demonstrates that a pre-trained image diffusion model can serve as an adequate prior for a flow matching depth model, allowing efficient training on only synthetic data to generalize to real images. We find that an auxiliary surface normals loss further improves the depth estimates. Due to the generative nature of our approach, our model reliably predicts the confidence of its depth estimates. On standard benchmarks of complex natural scenes, our lightweight approach exhibits state-of-the-art performance at favorable low computational cost despite only being trained on little synthetic data.

Summary

AI-Generated Summary

PDF171December 15, 2024