Desbloqueando la estimación densa de profundidad métrica en VLMs

Resumen

Los Modelos de Visión-Lenguaje (VLMs) destacan en tareas 2D como el anclaje y el subtitulado, pero siguen siendo limitados en la comprensión 3D. Una limitación clave es su paradigma de supervisión exclusivamente textual, que restringe insuficientemente la percepción visual detallada e impide recuperar geometría densa. Los métodos previos o bien destilan geometría de modelos de visión externos, introduciendo acumulación de errores, o permiten la predicción directa mediante consultas ineficientes por píxel o salidas a nivel de token poco detalladas. En este artículo, proponemos DepthVLM, un marco simple pero efectivo que transforma un único VLM en un predictor nativo de geometría densa, preservando al mismo tiempo su capacidad multimodal. Al añadir un cabezal de profundidad ligero a la columna vertebral del LLM y entrenarlo bajo un paradigma de supervisión unificada visión-texto con un programa de dos etapas, DepthVLM genera mapas de profundidad de resolución completa junto con salidas de lenguaje en una única pasada hacia adelante. Además, introducimos un punto de referencia unificado de profundidad métrica para interiores y exteriores en un formato compatible con VLMs. Los experimentos muestran que DepthVLM supera significativamente a los VLMs existentes con mayor eficiencia de inferencia, sobrepasa a los modelos puramente visuales líderes y mejora el razonamiento espacial 3D complejo, avanzando hacia un modelo fundacional verdaderamente unificado. Todo el código y los puntos de control se publicarán públicamente.

English

Vision-Language Models (VLMs) excel at 2D tasks such as grounding and captioning, yet remain limited in 3D understanding. A key limitation is their text-only supervision paradigm, which under-constrains fine-grained visual perception and prevents the recovery of dense geometry. Prior methods either distill geometry from external vision models, introducing error accumulation, or enable direct prediction with inefficient per-pixel query or coarse token-level outputs. In this paper, we propose DepthVLM, a simple yet effective framework that transforms a single VLM into a native dense geometry predictor while preserving its multimodal capability. By attaching a lightweight depth head to the LLM backbone and training under a unified vision-text supervision paradigm with a two-stage schedule, DepthVLM generates full-resolution depth maps alongside language outputs in a single forward pass. We further introduce a unified indoor-outdoor metric depth benchmark in a VLM-compatible format. Experiments show that DepthVLM significantly outperforms existing VLMs with higher inference efficiency, surpasses leading pure vision models, and improves complex 3D spatial reasoning, moving toward a truly unified foundation model. All code and checkpoints will be publicly released.