ChatPaper.aiChatPaper

Profondeur de déclenchement pour une estimation précise de la profondeur métrique en résolution 4K.

Prompting Depth Anything for 4K Resolution Accurate Metric Depth Estimation

December 18, 2024
Auteurs: Haotong Lin, Sida Peng, Jingxiao Chen, Songyou Peng, Jiaming Sun, Minghuan Liu, Hujun Bao, Jiashi Feng, Xiaowei Zhou, Bingyi Kang
cs.AI

Résumé

Les invitations jouent un rôle crucial dans libérer la puissance des modèles fondamentaux de langage et de vision pour des tâches spécifiques. Pour la première fois, nous introduisons l'utilisation d'invitations dans les modèles fondamentaux de profondeur, créant un nouveau paradigme pour l'estimation de profondeur métrique appelé Profondeur par Invitation. Plus précisément, nous utilisons un LiDAR à faible coût comme invitation pour guider le modèle Profondeur par Invitation vers une sortie de profondeur métrique précise, atteignant une résolution allant jusqu'à 4K. Notre approche repose sur une conception de fusion d'invitation concise qui intègre le LiDAR à plusieurs échelles au sein du décodeur de profondeur. Pour relever les défis d'entraînement posés par des ensembles de données limités contenant à la fois des données de profondeur LiDAR et des données de profondeur GT précises, nous proposons un pipeline de données évolutif qui inclut une simulation de données LiDAR synthétiques et la génération de données de profondeur GT pseudo réelles. Notre approche établit de nouveaux états de l'art sur les ensembles de données ARKitScenes et ScanNet++ et bénéficie aux applications aval, y compris la reconstruction 3D et la préhension robotique généralisée.
English
Prompts play a critical role in unleashing the power of language and vision foundation models for specific tasks. For the first time, we introduce prompting into depth foundation models, creating a new paradigm for metric depth estimation termed Prompt Depth Anything. Specifically, we use a low-cost LiDAR as the prompt to guide the Depth Anything model for accurate metric depth output, achieving up to 4K resolution. Our approach centers on a concise prompt fusion design that integrates the LiDAR at multiple scales within the depth decoder. To address training challenges posed by limited datasets containing both LiDAR depth and precise GT depth, we propose a scalable data pipeline that includes synthetic data LiDAR simulation and real data pseudo GT depth generation. Our approach sets new state-of-the-arts on the ARKitScenes and ScanNet++ datasets and benefits downstream applications, including 3D reconstruction and generalized robotic grasping.

Summary

AI-Generated Summary

PDF124December 19, 2024