Tiefenanregung für genaue metrische Tiefenschätzung bei 4K-Auflösung
Prompting Depth Anything for 4K Resolution Accurate Metric Depth Estimation
December 18, 2024
Autoren: Haotong Lin, Sida Peng, Jingxiao Chen, Songyou Peng, Jiaming Sun, Minghuan Liu, Hujun Bao, Jiashi Feng, Xiaowei Zhou, Bingyi Kang
cs.AI
Zusammenfassung
Prompts spielen eine entscheidende Rolle bei der Entfesselung der Leistung von Sprach- und Bildgrundlagenmodellen für spezifische Aufgaben. Zum ersten Mal führen wir das Anregen in tiefen Grundlagenmodellen ein und schaffen ein neues Paradigma für die metrische Tiefenschätzung namens Prompt Depth Anything. Spezifisch verwenden wir ein kostengünstiges LiDAR als Anregung, um das Depth Anything-Modell für präzise metrische Tiefenausgabe mit bis zu 4K-Auflösung zu führen. Unser Ansatz konzentriert sich auf ein prägnantes Prompt-Fusionsdesign, das das LiDAR in mehreren Maßstäben innerhalb des Tiefendekoders integriert. Um mit den Schulungsherausforderungen umzugehen, die durch begrenzte Datensätze entstehen, die sowohl LiDAR-Tiefe als auch präzise GT-Tiefe enthalten, schlagen wir eine skalierbare Datenpipeline vor, die synthetische Daten-LiDAR-Simulation und die Erzeugung von pseudo GT-Tiefe aus realen Daten umfasst. Unser Ansatz setzt neue State-of-the-Arts auf den ARKitScenes- und ScanNet++-Datensätzen und profitiert von nachgelagerten Anwendungen, einschließlich 3D-Rekonstruktion und generalisiertem robotergestütztem Greifen.
English
Prompts play a critical role in unleashing the power of language and vision
foundation models for specific tasks. For the first time, we introduce
prompting into depth foundation models, creating a new paradigm for metric
depth estimation termed Prompt Depth Anything. Specifically, we use a low-cost
LiDAR as the prompt to guide the Depth Anything model for accurate metric depth
output, achieving up to 4K resolution. Our approach centers on a concise prompt
fusion design that integrates the LiDAR at multiple scales within the depth
decoder. To address training challenges posed by limited datasets containing
both LiDAR depth and precise GT depth, we propose a scalable data pipeline that
includes synthetic data LiDAR simulation and real data pseudo GT depth
generation. Our approach sets new state-of-the-arts on the ARKitScenes and
ScanNet++ datasets and benefits downstream applications, including 3D
reconstruction and generalized robotic grasping.Summary
AI-Generated Summary