DepthFM: Schnelle monokulare Tiefenschätzung mit Flussabgleich
DepthFM: Fast Monocular Depth Estimation with Flow Matching
March 20, 2024
Autoren: Ming Gui, Johannes S. Fischer, Ulrich Prestel, Pingchuan Ma, Dmytro Kotovenko, Olga Grebenkova, Stefan Andreas Baumann, Vincent Tao Hu, Björn Ommer
cs.AI
Zusammenfassung
Die Schätzung der monokularen Tiefe ist entscheidend für zahlreiche nachgelagerte Visionstasks und Anwendungen. Aktuelle diskriminative Ansätze zu diesem Problem sind aufgrund von unscharfen Artefakten begrenzt, während generative Methoden auf dem neuesten Stand der Technik aufgrund ihrer SDE-Natur unter langsamer Abtastung leiden. Anstatt von Rauschen auszugehen, suchen wir eine direkte Zuordnung vom Eingabebild zur Tiefenkarte. Wir stellen fest, dass dies effektiv durch die Verwendung von Flussabgleichungen gerahmt werden kann, da ihre geraden Trajektorien durch den Lösungsraum Effizienz und hohe Qualität bieten. Unsere Studie zeigt, dass ein vortrainiertes Bildverdünnungsmodell als angemessene Voraussetzung für ein Flussabgleich-Tiefenmodell dienen kann, um eine effiziente Schulung nur auf synthetischen Daten zu ermöglichen, die auf reale Bilder verallgemeinern. Wir stellen fest, dass ein zusätzlicher Verlust von Oberflächennormalen die Tiefschätzungen weiter verbessert. Aufgrund des generativen Charakters unseres Ansatzes sagt unser Modell zuverlässig die Zuversichtlichkeit seiner Tiefschätzungen voraus. Auf Standard-Benchmarks komplexer natürlicher Szenen zeigt unser leichtgewichtiger Ansatz trotz Schulung nur auf wenig synthetischen Daten eine Leistung auf dem neuesten Stand der Technik bei günstigen niedrigen Rechenkosten.
English
Monocular depth estimation is crucial for numerous downstream vision tasks
and applications. Current discriminative approaches to this problem are limited
due to blurry artifacts, while state-of-the-art generative methods suffer from
slow sampling due to their SDE nature. Rather than starting from noise, we seek
a direct mapping from input image to depth map. We observe that this can be
effectively framed using flow matching, since its straight trajectories through
solution space offer efficiency and high quality. Our study demonstrates that a
pre-trained image diffusion model can serve as an adequate prior for a flow
matching depth model, allowing efficient training on only synthetic data to
generalize to real images. We find that an auxiliary surface normals loss
further improves the depth estimates. Due to the generative nature of our
approach, our model reliably predicts the confidence of its depth estimates. On
standard benchmarks of complex natural scenes, our lightweight approach
exhibits state-of-the-art performance at favorable low computational cost
despite only being trained on little synthetic data.Summary
AI-Generated Summary