Глубина стимулирования для точной метрической оценки глубины при разрешении 4K.
Prompting Depth Anything for 4K Resolution Accurate Metric Depth Estimation
December 18, 2024
Авторы: Haotong Lin, Sida Peng, Jingxiao Chen, Songyou Peng, Jiaming Sun, Minghuan Liu, Hujun Bao, Jiashi Feng, Xiaowei Zhou, Bingyi Kang
cs.AI
Аннотация
Подсказки играют критическую роль в раскрытии потенциала моделей основы языка и зрения для конкретных задач. Впервые мы вводим использование подсказок в модели глубины основы, создавая новую парадигму для метрической оценки глубины, названную "Prompt Depth Anything". Конкретно, мы используем недорогой LiDAR в качестве подсказки для направления модели Depth Anything для точного вывода метрической глубины с разрешением до 4K. Наш подход основан на лаконичном дизайне слияния подсказок, который интегрирует LiDAR на нескольких масштабах внутри декодера глубины. Для решения проблем обучения, вызванных ограниченными наборами данных, содержащими как глубину LiDAR, так и точную GT глубину, мы предлагаем масштабируемую конвейерную обработку данных, которая включает синтетическую симуляцию данных LiDAR и генерацию псевдо GT глубины на реальных данных. Наш подход устанавливает новые рекорды на наборах данных ARKitScenes и ScanNet++ и приносит пользу прикладным задачам, включая 3D реконструкцию и обобщенное робототехническое захватывание.
English
Prompts play a critical role in unleashing the power of language and vision
foundation models for specific tasks. For the first time, we introduce
prompting into depth foundation models, creating a new paradigm for metric
depth estimation termed Prompt Depth Anything. Specifically, we use a low-cost
LiDAR as the prompt to guide the Depth Anything model for accurate metric depth
output, achieving up to 4K resolution. Our approach centers on a concise prompt
fusion design that integrates the LiDAR at multiple scales within the depth
decoder. To address training challenges posed by limited datasets containing
both LiDAR depth and precise GT depth, we propose a scalable data pipeline that
includes synthetic data LiDAR simulation and real data pseudo GT depth
generation. Our approach sets new state-of-the-arts on the ARKitScenes and
ScanNet++ datasets and benefits downstream applications, including 3D
reconstruction and generalized robotic grasping.Summary
AI-Generated Summary