Ontgrendelen van dichte metrische diepteschatting in VLM's

Samenvatting

Visie-Taalmodellen (VLMs) excelleren in 2D-taken zoals grounding en captioning, maar blijven beperkt in 3D-begrip. Een belangrijke beperking is hun uitsluitend tekstgebaseerde supervisieparadigma, dat fijnmazige visuele waarneming onvoldoende reguleert en het herstel van dichte geometrie verhindert. Eerdere methoden destilleren ofwel geometrie uit externe visiemodellen, wat leidt tot foutaccumulatie, of maken directe voorspelling mogelijk met inefficiënte per-pixel-query's of grove uitvoer op token-niveau. In dit artikel stellen we DepthVLM voor, een eenvoudig maar effectief raamwerk dat een enkel VLM omvormt tot een native voorspeller van dichte geometrie, terwijl de multimodale capaciteit behouden blijft. Door een lichtgewicht dieptehoofd aan de LLM-ruggengraat te bevestigen en te trainen onder een verenigd visie-tekst supervisieparadigma met een tweetraps schema, genereert DepthVLM dieptekaarten van volledige resolutie samen met taaluitvoer in een enkele voorwaartse doorgang. We introduceren verder een verenigde metrische dieptebenchmark voor binnen- en buitenscènes in een VLM-compatibel formaat. Experimenten tonen aan dat DepthVLM aanzienlijk beter presteert dan bestaande VLMs met hogere inferentie-efficiëntie, toonaangevende pure visiemodellen overtreft en complexe 3D-ruimtelijke redenering verbetert, waarmee het een stap zet richting een werkelijk verenigd funderingsmodel. Alle code en checkpoints zullen openbaar worden vrijgegeven.

English

Vision-Language Models (VLMs) excel at 2D tasks such as grounding and captioning, yet remain limited in 3D understanding. A key limitation is their text-only supervision paradigm, which under-constrains fine-grained visual perception and prevents the recovery of dense geometry. Prior methods either distill geometry from external vision models, introducing error accumulation, or enable direct prediction with inefficient per-pixel query or coarse token-level outputs. In this paper, we propose DepthVLM, a simple yet effective framework that transforms a single VLM into a native dense geometry predictor while preserving its multimodal capability. By attaching a lightweight depth head to the LLM backbone and training under a unified vision-text supervision paradigm with a two-stage schedule, DepthVLM generates full-resolution depth maps alongside language outputs in a single forward pass. We further introduce a unified indoor-outdoor metric depth benchmark in a VLM-compatible format. Experiments show that DepthVLM significantly outperforms existing VLMs with higher inference efficiency, surpasses leading pure vision models, and improves complex 3D spatial reasoning, moving toward a truly unified foundation model. All code and checkpoints will be publicly released.