ChatPaper.aiChatPaper

Diepte-aanwijzingen voor nauwkeurige metrische diepteschatting bij 4K-resolutie.

Prompting Depth Anything for 4K Resolution Accurate Metric Depth Estimation

December 18, 2024
Auteurs: Haotong Lin, Sida Peng, Jingxiao Chen, Songyou Peng, Jiaming Sun, Minghuan Liu, Hujun Bao, Jiashi Feng, Xiaowei Zhou, Bingyi Kang
cs.AI

Samenvatting

Prompts spelen een cruciale rol bij het ontketenen van de kracht van taal- en visie-foundation-modellen voor specifieke taken. Voor het eerst introduceren we prompting in diepte-foundation-modellen, waarbij we een nieuw paradigma creëren voor metrische diepteschatting genaamd Prompt Diepte Alles. Specifiek gebruiken we een kosteneffectieve LiDAR als prompt om het Diepte Alles-model te begeleiden voor nauwkeurige metrische diepte-uitvoer, met een resolutie tot 4K. Onze aanpak richt zich op een beknopt promptfusie-ontwerp dat de LiDAR integreert op meerdere schalen binnen de diepte-decoder. Om de trainingsuitdagingen aan te pakken die worden veroorzaakt door beperkte datasets met zowel LiDAR-diepte als nauwkeurige GT-diepte, stellen we een schaalbare datapijplijn voor die synthetische data LiDAR-simulatie en pseudo GT-dieptegeneratie met echt data omvat. Onze aanpak zet nieuwe state-of-the-arts op de ARKitScenes en ScanNet++ datasets en biedt voordelen voor downstream-toepassingen, waaronder 3D-reconstructie en gegeneraliseerde robotgrijpen.
English
Prompts play a critical role in unleashing the power of language and vision foundation models for specific tasks. For the first time, we introduce prompting into depth foundation models, creating a new paradigm for metric depth estimation termed Prompt Depth Anything. Specifically, we use a low-cost LiDAR as the prompt to guide the Depth Anything model for accurate metric depth output, achieving up to 4K resolution. Our approach centers on a concise prompt fusion design that integrates the LiDAR at multiple scales within the depth decoder. To address training challenges posed by limited datasets containing both LiDAR depth and precise GT depth, we propose a scalable data pipeline that includes synthetic data LiDAR simulation and real data pseudo GT depth generation. Our approach sets new state-of-the-arts on the ARKitScenes and ScanNet++ datasets and benefits downstream applications, including 3D reconstruction and generalized robotic grasping.
PDF124December 19, 2024