ChatPaper.aiChatPaper

Profundidad de Estímulo para la Estimación de Profundidad Métrica Precisa en Resolución 4K.

Prompting Depth Anything for 4K Resolution Accurate Metric Depth Estimation

December 18, 2024
Autores: Haotong Lin, Sida Peng, Jingxiao Chen, Songyou Peng, Jiaming Sun, Minghuan Liu, Hujun Bao, Jiashi Feng, Xiaowei Zhou, Bingyi Kang
cs.AI

Resumen

Las indicaciones desempeñan un papel crítico en liberar el poder de los modelos base de lenguaje y visión para tareas específicas. Por primera vez, introducimos la idea de indicaciones en modelos base de profundidad, creando un nuevo paradigma para la estimación de profundidad métrica denominado Profundidad con Indicaciones. Específicamente, utilizamos un LiDAR de bajo costo como indicación para guiar al modelo de Profundidad con Indicaciones hacia una salida precisa de profundidad métrica, logrando una resolución de hasta 4K. Nuestro enfoque se centra en un diseño conciso de fusión de indicaciones que integra el LiDAR en múltiples escalas dentro del decodificador de profundidad. Para abordar los desafíos de entrenamiento planteados por conjuntos de datos limitados que contienen tanto la profundidad del LiDAR como la profundidad GT precisa, proponemos un canal de datos escalable que incluye simulación de datos sintéticos de LiDAR y generación de profundidad GT pseudo de datos reales. Nuestro enfoque establece nuevos estados del arte en los conjuntos de datos ARKitScenes y ScanNet++ y beneficia a aplicaciones posteriores, incluida la reconstrucción 3D y la manipulación robótica generalizada.
English
Prompts play a critical role in unleashing the power of language and vision foundation models for specific tasks. For the first time, we introduce prompting into depth foundation models, creating a new paradigm for metric depth estimation termed Prompt Depth Anything. Specifically, we use a low-cost LiDAR as the prompt to guide the Depth Anything model for accurate metric depth output, achieving up to 4K resolution. Our approach centers on a concise prompt fusion design that integrates the LiDAR at multiple scales within the depth decoder. To address training challenges posed by limited datasets containing both LiDAR depth and precise GT depth, we propose a scalable data pipeline that includes synthetic data LiDAR simulation and real data pseudo GT depth generation. Our approach sets new state-of-the-arts on the ARKitScenes and ScanNet++ datasets and benefits downstream applications, including 3D reconstruction and generalized robotic grasping.

Summary

AI-Generated Summary

PDF124December 19, 2024