Erschließung dichter metrischer Tiefenschätzung in VLMs

Zusammenfassung

Vision-Language-Modelle (VLMs) zeichnen sich durch 2D-Aufgaben wie Grounding und Captioning aus, bleiben jedoch im 3D-Verständnis eingeschränkt. Eine wesentliche Einschränkung ist ihr Paradigma der reinen Textüberwachung, das die feinkörnige visuelle Wahrnehmung unzureichend einschränkt und die Wiederherstellung dichter Geometrie verhindert. Bisherige Methoden destillieren entweder Geometrie aus externen Bildverarbeitungsmodellen, was zu Fehlerakkumulation führt, oder ermöglichen eine direkte Vorhersage mit ineffizienten pixelweisen Abfragen oder groben tokenbasierten Ausgaben. In diesem Paper schlagen wir DepthVLM vor, ein einfaches, aber effektives Framework, das ein einzelnes VLM in einen natives dichten Geometrieprädiktor verwandelt, während seine multimodale Fähigkeit erhalten bleibt. Durch das Anhängen eines leichten Tiefenkopfs an das LLM-Backbone und Training unter einem einheitlichen visuell-textuellen Überwachungsparadigma mit einem zweistufigen Zeitplan erzeugt DepthVLM vollauflösende Tiefenkarten zusammen mit Sprachausgaben in einem einzigen Vorwärtsdurchlauf. Wir führen außerdem einen einheitlichen metrischen Tiefenbenchmark für Innen- und Außenbereiche in einem VLM-kompatiblen Format ein. Experimente zeigen, dass DepthVLM bestehende VLMs mit höherer Inferenzeffizienz deutlich übertrifft, führende reine Bildverarbeitungsmodelle übertrifft und komplexes 3D-räumliches Denken verbessert, was auf ein wirklich einheitliches Foundation-Modell hinarbeitet. Der gesamte Code und alle Checkpoints werden öffentlich verfügbar gemacht.

English

Vision-Language Models (VLMs) excel at 2D tasks such as grounding and captioning, yet remain limited in 3D understanding. A key limitation is their text-only supervision paradigm, which under-constrains fine-grained visual perception and prevents the recovery of dense geometry. Prior methods either distill geometry from external vision models, introducing error accumulation, or enable direct prediction with inefficient per-pixel query or coarse token-level outputs. In this paper, we propose DepthVLM, a simple yet effective framework that transforms a single VLM into a native dense geometry predictor while preserving its multimodal capability. By attaching a lightweight depth head to the LLM backbone and training under a unified vision-text supervision paradigm with a two-stage schedule, DepthVLM generates full-resolution depth maps alongside language outputs in a single forward pass. We further introduce a unified indoor-outdoor metric depth benchmark in a VLM-compatible format. Experiments show that DepthVLM significantly outperforms existing VLMs with higher inference efficiency, surpasses leading pure vision models, and improves complex 3D spatial reasoning, moving toward a truly unified foundation model. All code and checkpoints will be publicly released.