Profondeur de déclenchement pour une estimation précise de la profondeur métrique en résolution 4K.
Prompting Depth Anything for 4K Resolution Accurate Metric Depth Estimation
December 18, 2024
Auteurs: Haotong Lin, Sida Peng, Jingxiao Chen, Songyou Peng, Jiaming Sun, Minghuan Liu, Hujun Bao, Jiashi Feng, Xiaowei Zhou, Bingyi Kang
cs.AI
Résumé
Les invitations jouent un rôle crucial dans libérer la puissance des modèles fondamentaux de langage et de vision pour des tâches spécifiques. Pour la première fois, nous introduisons l'utilisation d'invitations dans les modèles fondamentaux de profondeur, créant un nouveau paradigme pour l'estimation de profondeur métrique appelé Profondeur par Invitation. Plus précisément, nous utilisons un LiDAR à faible coût comme invitation pour guider le modèle Profondeur par Invitation vers une sortie de profondeur métrique précise, atteignant une résolution allant jusqu'à 4K. Notre approche repose sur une conception de fusion d'invitation concise qui intègre le LiDAR à plusieurs échelles au sein du décodeur de profondeur. Pour relever les défis d'entraînement posés par des ensembles de données limités contenant à la fois des données de profondeur LiDAR et des données de profondeur GT précises, nous proposons un pipeline de données évolutif qui inclut une simulation de données LiDAR synthétiques et la génération de données de profondeur GT pseudo réelles. Notre approche établit de nouveaux états de l'art sur les ensembles de données ARKitScenes et ScanNet++ et bénéficie aux applications aval, y compris la reconstruction 3D et la préhension robotique généralisée.
English
Prompts play a critical role in unleashing the power of language and vision
foundation models for specific tasks. For the first time, we introduce
prompting into depth foundation models, creating a new paradigm for metric
depth estimation termed Prompt Depth Anything. Specifically, we use a low-cost
LiDAR as the prompt to guide the Depth Anything model for accurate metric depth
output, achieving up to 4K resolution. Our approach centers on a concise prompt
fusion design that integrates the LiDAR at multiple scales within the depth
decoder. To address training challenges posed by limited datasets containing
both LiDAR depth and precise GT depth, we propose a scalable data pipeline that
includes synthetic data LiDAR simulation and real data pseudo GT depth
generation. Our approach sets new state-of-the-arts on the ARKitScenes and
ScanNet++ datasets and benefits downstream applications, including 3D
reconstruction and generalized robotic grasping.Summary
AI-Generated Summary