Tiefenanregung für genaue metrische Tiefenschätzung bei 4K-Auflösung

papers.abstract

Prompts spielen eine entscheidende Rolle bei der Entfesselung der Leistung von Sprach- und Bildgrundlagenmodellen für spezifische Aufgaben. Zum ersten Mal führen wir das Anregen in tiefen Grundlagenmodellen ein und schaffen ein neues Paradigma für die metrische Tiefenschätzung namens Prompt Depth Anything. Spezifisch verwenden wir ein kostengünstiges LiDAR als Anregung, um das Depth Anything-Modell für präzise metrische Tiefenausgabe mit bis zu 4K-Auflösung zu führen. Unser Ansatz konzentriert sich auf ein prägnantes Prompt-Fusionsdesign, das das LiDAR in mehreren Maßstäben innerhalb des Tiefendekoders integriert. Um mit den Schulungsherausforderungen umzugehen, die durch begrenzte Datensätze entstehen, die sowohl LiDAR-Tiefe als auch präzise GT-Tiefe enthalten, schlagen wir eine skalierbare Datenpipeline vor, die synthetische Daten-LiDAR-Simulation und die Erzeugung von pseudo GT-Tiefe aus realen Daten umfasst. Unser Ansatz setzt neue State-of-the-Arts auf den ARKitScenes- und ScanNet++-Datensätzen und profitiert von nachgelagerten Anwendungen, einschließlich 3D-Rekonstruktion und generalisiertem robotergestütztem Greifen.

English

Prompts play a critical role in unleashing the power of language and vision foundation models for specific tasks. For the first time, we introduce prompting into depth foundation models, creating a new paradigm for metric depth estimation termed Prompt Depth Anything. Specifically, we use a low-cost LiDAR as the prompt to guide the Depth Anything model for accurate metric depth output, achieving up to 4K resolution. Our approach centers on a concise prompt fusion design that integrates the LiDAR at multiple scales within the depth decoder. To address training challenges posed by limited datasets containing both LiDAR depth and precise GT depth, we propose a scalable data pipeline that includes synthetic data LiDAR simulation and real data pseudo GT depth generation. Our approach sets new state-of-the-arts on the ARKitScenes and ScanNet++ datasets and benefits downstream applications, including 3D reconstruction and generalized robotic grasping.

Tiefenanregung für genaue metrische Tiefenschätzung bei 4K-Auflösung

Prompting Depth Anything for 4K Resolution Accurate Metric Depth Estimation

papers.abstract

Support