Глубина Pro: четкая монокулярная метрическая глубина менее чем за секунду
Depth Pro: Sharp Monocular Metric Depth in Less Than a Second
October 2, 2024
Авторы: Aleksei Bochkovskii, Amaël Delaunoy, Hugo Germain, Marcel Santos, Yichao Zhou, Stephan R. Richter, Vladlen Koltun
cs.AI
Аннотация
Мы представляем базовую модель для оценки монокулярной глубины с нулевым шагом метрики. Наша модель, Depth Pro, синтезирует карты глубины высокого разрешения с непревзойденной четкостью и высокочастотными деталями. Прогнозы являются метрическими, с абсолютным масштабом, не зависят от наличия метаданных, таких как внутренние параметры камеры. Модель быстрая, создает карту глубины разрешением 2,25 мегапикселя за 0,3 секунды на стандартном GPU. Эти характеристики обеспечиваются рядом технических вкладов, включая эффективный мультимасштабный видео-трансформер для плотного прогнозирования, протокол обучения, который объединяет реальные и синтетические наборы данных для достижения высокой метрической точности наряду с точным трассированием границ, специализированные метрики оценки точности границ в оцененных картах глубины и передовая оценка фокусного расстояния по одному изображению. Обширные эксперименты анализируют конкретные дизайнерские решения и демонстрируют, что Depth Pro превосходит предыдущие работы по нескольким измерениям. Мы предоставляем код и веса по ссылке https://github.com/apple/ml-depth-pro
English
We present a foundation model for zero-shot metric monocular depth
estimation. Our model, Depth Pro, synthesizes high-resolution depth maps with
unparalleled sharpness and high-frequency details. The predictions are metric,
with absolute scale, without relying on the availability of metadata such as
camera intrinsics. And the model is fast, producing a 2.25-megapixel depth map
in 0.3 seconds on a standard GPU. These characteristics are enabled by a number
of technical contributions, including an efficient multi-scale vision
transformer for dense prediction, a training protocol that combines real and
synthetic datasets to achieve high metric accuracy alongside fine boundary
tracing, dedicated evaluation metrics for boundary accuracy in estimated depth
maps, and state-of-the-art focal length estimation from a single image.
Extensive experiments analyze specific design choices and demonstrate that
Depth Pro outperforms prior work along multiple dimensions. We release code and
weights at https://github.com/apple/ml-depth-proSummary
AI-Generated Summary