ChatPaper.aiChatPaper

Profondeur Pro : Profondeur métrique nette monoculaire en moins d'une seconde

Depth Pro: Sharp Monocular Metric Depth in Less Than a Second

October 2, 2024
Auteurs: Aleksei Bochkovskii, Amaël Delaunoy, Hugo Germain, Marcel Santos, Yichao Zhou, Stephan R. Richter, Vladlen Koltun
cs.AI

Résumé

Nous présentons un modèle de base pour l'estimation métrique de profondeur monoculaire en zéro-shot. Notre modèle, Depth Pro, synthétise des cartes de profondeur haute résolution avec une netteté inégalée et des détails haute fréquence. Les prédictions sont métriques, à échelle absolue, sans dépendre de la disponibilité de métadonnées telles que les intrinsèques de la caméra. De plus, le modèle est rapide, produisant une carte de profondeur de 2,25 mégapixels en 0,3 seconde sur un GPU standard. Ces caractéristiques sont rendues possibles par plusieurs contributions techniques, notamment un transformateur de vision multi-échelle efficace pour la prédiction dense, un protocole d'entraînement combinant des ensembles de données réels et synthétiques pour atteindre une précision métrique élevée ainsi qu'un suivi précis des contours, des métriques d'évaluation dédiées pour la précision des contours dans les cartes de profondeur estimées, et une estimation de la longueur focale de pointe à partir d'une seule image. Des expériences approfondies analysent des choix de conception spécifiques et démontrent que Depth Pro surpasse les travaux antérieurs sur plusieurs aspects. Nous mettons à disposition le code et les poids sur https://github.com/apple/ml-depth-pro.
English
We present a foundation model for zero-shot metric monocular depth estimation. Our model, Depth Pro, synthesizes high-resolution depth maps with unparalleled sharpness and high-frequency details. The predictions are metric, with absolute scale, without relying on the availability of metadata such as camera intrinsics. And the model is fast, producing a 2.25-megapixel depth map in 0.3 seconds on a standard GPU. These characteristics are enabled by a number of technical contributions, including an efficient multi-scale vision transformer for dense prediction, a training protocol that combines real and synthetic datasets to achieve high metric accuracy alongside fine boundary tracing, dedicated evaluation metrics for boundary accuracy in estimated depth maps, and state-of-the-art focal length estimation from a single image. Extensive experiments analyze specific design choices and demonstrate that Depth Pro outperforms prior work along multiple dimensions. We release code and weights at https://github.com/apple/ml-depth-pro

Summary

AI-Generated Summary

PDF422November 16, 2024