Tiefenpro: Scharfe monokulare metrische Tiefe in weniger als einer Sekunde
Depth Pro: Sharp Monocular Metric Depth in Less Than a Second
October 2, 2024
Autoren: Aleksei Bochkovskii, Amaël Delaunoy, Hugo Germain, Marcel Santos, Yichao Zhou, Stephan R. Richter, Vladlen Koltun
cs.AI
Zusammenfassung
Wir präsentieren ein Grundlagenmodell für die Null-Shot-Metrik der monokularen Tiefenschätzung. Unser Modell, Depth Pro, synthetisiert Tiefenkarten mit beispielloser Schärfe und hochfrequenten Details. Die Vorhersagen sind metrisch, mit absolutem Maßstab, ohne auf die Verfügbarkeit von Metadaten wie Kameraintrinsik zu angewiesen. Das Modell ist zudem schnell und erstellt eine 2,25-Megapixel-Tiefenkarte in 0,3 Sekunden auf einer Standard-GPU. Diese Merkmale werden durch mehrere technische Beiträge ermöglicht, darunter ein effizienter Multi-Scale-Vision-Transformer für dichte Vorhersagen, ein Schulungsprotokoll, das reale und synthetische Datensätze kombiniert, um eine hohe metrische Genauigkeit neben einer feinen Randverfolgung zu erreichen, dedizierte Auswertungsmetriken für Randgenauigkeit in geschätzten Tiefenkarten und eine state-of-the-art Brennweitenabschätzung aus einem einzigen Bild. Umfangreiche Experimente analysieren spezifische Designentscheidungen und zeigen, dass Depth Pro frühere Arbeiten in mehreren Dimensionen übertrifft. Wir veröffentlichen den Code und die Gewichte unter https://github.com/apple/ml-depth-pro.
English
We present a foundation model for zero-shot metric monocular depth
estimation. Our model, Depth Pro, synthesizes high-resolution depth maps with
unparalleled sharpness and high-frequency details. The predictions are metric,
with absolute scale, without relying on the availability of metadata such as
camera intrinsics. And the model is fast, producing a 2.25-megapixel depth map
in 0.3 seconds on a standard GPU. These characteristics are enabled by a number
of technical contributions, including an efficient multi-scale vision
transformer for dense prediction, a training protocol that combines real and
synthetic datasets to achieve high metric accuracy alongside fine boundary
tracing, dedicated evaluation metrics for boundary accuracy in estimated depth
maps, and state-of-the-art focal length estimation from a single image.
Extensive experiments analyze specific design choices and demonstrate that
Depth Pro outperforms prior work along multiple dimensions. We release code and
weights at https://github.com/apple/ml-depth-proSummary
AI-Generated Summary