ChatPaper.aiChatPaper

Depth Pro: Profondità Metrica Monoculare Nitida in Meno di un Secondo

Depth Pro: Sharp Monocular Metric Depth in Less Than a Second

October 2, 2024
Autori: Aleksei Bochkovskii, Amaël Delaunoy, Hugo Germain, Marcel Santos, Yichao Zhou, Stephan R. Richter, Vladlen Koltun
cs.AI

Abstract

Presentiamo un modello fondamentale per la stima della profondità monoculare metrica a zero scatti. Il nostro modello, Depth Pro, sintetizza mappe di profondità ad alta risoluzione con nitidezza e dettagli ad alta frequenza senza precedenti. Le previsioni sono metriche, con scala assoluta, senza dipendere dalla disponibilità di metadati come intrinseci della fotocamera. Inoltre, il modello è veloce, producendo una mappa di profondità da 2,25 megapixel in 0,3 secondi su una GPU standard. Queste caratteristiche sono rese possibili da una serie di contributi tecnici, tra cui un efficiente trasformatore di visione multi-scala per una previsione densa, un protocollo di addestramento che combina set di dati reali e sintetici per ottenere un'alta precisione metrica insieme a una tracciatura precisa dei confini, metriche di valutazione dedicate per l'accuratezza dei confini nelle mappe di profondità stimate e una stima della lunghezza focale all'avanguardia da un'immagine singola. Esperimenti estesi analizzano scelte di progettazione specifiche e dimostrano che Depth Pro supera i lavori precedenti su molteplici dimensioni. Rilasciamo codice e pesi su https://github.com/apple/ml-depth-pro
English
We present a foundation model for zero-shot metric monocular depth estimation. Our model, Depth Pro, synthesizes high-resolution depth maps with unparalleled sharpness and high-frequency details. The predictions are metric, with absolute scale, without relying on the availability of metadata such as camera intrinsics. And the model is fast, producing a 2.25-megapixel depth map in 0.3 seconds on a standard GPU. These characteristics are enabled by a number of technical contributions, including an efficient multi-scale vision transformer for dense prediction, a training protocol that combines real and synthetic datasets to achieve high metric accuracy alongside fine boundary tracing, dedicated evaluation metrics for boundary accuracy in estimated depth maps, and state-of-the-art focal length estimation from a single image. Extensive experiments analyze specific design choices and demonstrate that Depth Pro outperforms prior work along multiple dimensions. We release code and weights at https://github.com/apple/ml-depth-pro
PDF412November 16, 2024