ChatPaper.aiChatPaper

Depth Pro: Profundidad Métrica Nítida Monocular en Menos de un Segundo

Depth Pro: Sharp Monocular Metric Depth in Less Than a Second

October 2, 2024
Autores: Aleksei Bochkovskii, Amaël Delaunoy, Hugo Germain, Marcel Santos, Yichao Zhou, Stephan R. Richter, Vladlen Koltun
cs.AI

Resumen

Presentamos un modelo base para la estimación métrica de profundidad monocular de cero disparos. Nuestro modelo, Depth Pro, sintetiza mapas de profundidad de alta resolución con nitidez sin igual y detalles de alta frecuencia. Las predicciones son métricas, con escala absoluta, sin depender de la disponibilidad de metadatos como intrínsecos de cámara. Y el modelo es rápido, produciendo un mapa de profundidad de 2.25 megapíxeles en 0.3 segundos en una GPU estándar. Estas características son posibles gracias a una serie de contribuciones técnicas, que incluyen un eficiente transformador de visión multi-escala para predicciones densas, un protocolo de entrenamiento que combina conjuntos de datos reales y sintéticos para lograr una alta precisión métrica junto con un seguimiento fino de bordes, métricas de evaluación dedicadas para la precisión de bordes en mapas de profundidad estimados, y una estimación de longitud focal de vanguardia a partir de una sola imagen. Experimentos extensos analizan opciones de diseño específicas y demuestran que Depth Pro supera trabajos previos en múltiples dimensiones. Publicamos el código y los pesos en https://github.com/apple/ml-depth-pro
English
We present a foundation model for zero-shot metric monocular depth estimation. Our model, Depth Pro, synthesizes high-resolution depth maps with unparalleled sharpness and high-frequency details. The predictions are metric, with absolute scale, without relying on the availability of metadata such as camera intrinsics. And the model is fast, producing a 2.25-megapixel depth map in 0.3 seconds on a standard GPU. These characteristics are enabled by a number of technical contributions, including an efficient multi-scale vision transformer for dense prediction, a training protocol that combines real and synthetic datasets to achieve high metric accuracy alongside fine boundary tracing, dedicated evaluation metrics for boundary accuracy in estimated depth maps, and state-of-the-art focal length estimation from a single image. Extensive experiments analyze specific design choices and demonstrate that Depth Pro outperforms prior work along multiple dimensions. We release code and weights at https://github.com/apple/ml-depth-pro

Summary

AI-Generated Summary

PDF422November 16, 2024