Diepte Pro: Scherpe Monoculaire Metrische Diepte in Minder Dan Een Seconde
Depth Pro: Sharp Monocular Metric Depth in Less Than a Second
October 2, 2024
Auteurs: Aleksei Bochkovskii, Amaël Delaunoy, Hugo Germain, Marcel Santos, Yichao Zhou, Stephan R. Richter, Vladlen Koltun
cs.AI
Samenvatting
We presenteren een basismodel voor nul-shot metrische monoculaire diepteschatting. Ons model, Depth Pro, synthetiseert dieptekaarten met een hoge resolutie met ongeëvenaarde scherpte en details op hoge frequentie. De voorspellingen zijn metrisch, met absolute schaal, zonder te vertrouwen op de beschikbaarheid van metadata zoals cameraintrinsieken. En het model is snel, waarbij het in 0,3 seconden een dieptekaart van 2,25 megapixels genereert op een standaard GPU. Deze kenmerken worden mogelijk gemaakt door een aantal technische bijdragen, waaronder een efficiënte multi-schaal vision transformer voor dichte voorspelling, een trainingsprotocol dat echte en synthetische datasets combineert om hoge metrische nauwkeurigheid te bereiken naast fijne grenscontouren, toegewijde evaluatiemetrics voor grensnauwkeurigheid in geschatte dieptekaarten, en state-of-the-art scherpstelafstandsschatting vanuit een enkele afbeelding. Uitgebreide experimenten analyseren specifieke ontwerpkeuzes en tonen aan dat Depth Pro beter presteert dan eerdere werken langs meerdere dimensies. We publiceren de code en gewichten op https://github.com/apple/ml-depth-pro
English
We present a foundation model for zero-shot metric monocular depth
estimation. Our model, Depth Pro, synthesizes high-resolution depth maps with
unparalleled sharpness and high-frequency details. The predictions are metric,
with absolute scale, without relying on the availability of metadata such as
camera intrinsics. And the model is fast, producing a 2.25-megapixel depth map
in 0.3 seconds on a standard GPU. These characteristics are enabled by a number
of technical contributions, including an efficient multi-scale vision
transformer for dense prediction, a training protocol that combines real and
synthetic datasets to achieve high metric accuracy alongside fine boundary
tracing, dedicated evaluation metrics for boundary accuracy in estimated depth
maps, and state-of-the-art focal length estimation from a single image.
Extensive experiments analyze specific design choices and demonstrate that
Depth Pro outperforms prior work along multiple dimensions. We release code and
weights at https://github.com/apple/ml-depth-proSummary
AI-Generated Summary