DepthFM: フローマッチングによる高速単眼深度推定
DepthFM: Fast Monocular Depth Estimation with Flow Matching
March 20, 2024
著者: Ming Gui, Johannes S. Fischer, Ulrich Prestel, Pingchuan Ma, Dmytro Kotovenko, Olga Grebenkova, Stefan Andreas Baumann, Vincent Tao Hu, Björn Ommer
cs.AI
要旨
単眼深度推定は、多くの下流の視覚タスクやアプリケーションにおいて重要です。この問題に対する現在の識別的なアプローチは、ぼやけたアーティファクトのため制限されています。一方、最先端の生成的手法は、そのSDE(確率微分方程式)の性質によりサンプリングが遅いという課題を抱えています。ノイズから始めるのではなく、我々は入力画像から深度マップへの直接的なマッピングを追求します。これは、解空間を通る直線的な軌跡が効率性と高品質を提供するため、フローマッチングを用いて効果的に定式化できることを観察しました。本研究では、事前学習済みの画像拡散モデルがフローマッチング深度モデルの適切な事前分布として機能し、合成データのみで効率的に学習することで実画像に一般化できることを示します。さらに、補助的な表面法線損失が深度推定をさらに改善することがわかりました。我々のアプローチの生成的な性質により、モデルは深度推定の信頼度を確実に予測します。複雑な自然シーンの標準ベンチマークにおいて、我々の軽量なアプローチは、わずかな合成データで学習されたにもかかわらず、有利な低計算コストで最先端の性能を示します。
English
Monocular depth estimation is crucial for numerous downstream vision tasks
and applications. Current discriminative approaches to this problem are limited
due to blurry artifacts, while state-of-the-art generative methods suffer from
slow sampling due to their SDE nature. Rather than starting from noise, we seek
a direct mapping from input image to depth map. We observe that this can be
effectively framed using flow matching, since its straight trajectories through
solution space offer efficiency and high quality. Our study demonstrates that a
pre-trained image diffusion model can serve as an adequate prior for a flow
matching depth model, allowing efficient training on only synthetic data to
generalize to real images. We find that an auxiliary surface normals loss
further improves the depth estimates. Due to the generative nature of our
approach, our model reliably predicts the confidence of its depth estimates. On
standard benchmarks of complex natural scenes, our lightweight approach
exhibits state-of-the-art performance at favorable low computational cost
despite only being trained on little synthetic data.Summary
AI-Generated Summary