Desbloqueando a Estimativa de Profundidade Métrica Densa em VLMs

Resumo

Modelos de Visão-Linguagem (VLMs) são excelentes em tarefas 2D, como ancoragem e legendagem, mas ainda são limitados na compreensão 3D. Uma limitação fundamental é seu paradigma de supervisão exclusivamente textual, que subdetermina a percepção visual refinada e impede a recuperação da geometria densa. Métodos anteriores ou destilam geometria de modelos de visão externos, introduzindo acumulação de erros, ou permitem predição direta com consulta ineficiente por pixel ou saídas grosseiras em nível de token. Neste artigo, propomos DepthVLM, uma estrutura simples, porém eficaz, que transforma um único VLM em um preditor nativo de geometria densa, preservando sua capacidade multimodal. Ao anexar uma cabeça de profundidade leve ao backbone do LLM e treinar sob um paradigma unificado de supervisão visão-texto com uma programação de dois estágios, DepthVLM gera mapas de profundidade em resolução total juntamente com saídas de linguagem em uma única passagem direta. Introduzimos também um benchmark unificado de profundidade métrica para ambientes internos e externos em formato compatível com VLM. Experimentos mostram que DepthVLM supera significativamente VLMs existentes com maior eficiência de inferência, ultrapassa modelos líderes puramente de visão e melhora o raciocínio espacial 3D complexo, avançando em direção a um modelo de fundação verdadeiramente unificado. Todo o código e checkpoints serão disponibilizados publicamente.

English

Vision-Language Models (VLMs) excel at 2D tasks such as grounding and captioning, yet remain limited in 3D understanding. A key limitation is their text-only supervision paradigm, which under-constrains fine-grained visual perception and prevents the recovery of dense geometry. Prior methods either distill geometry from external vision models, introducing error accumulation, or enable direct prediction with inefficient per-pixel query or coarse token-level outputs. In this paper, we propose DepthVLM, a simple yet effective framework that transforms a single VLM into a native dense geometry predictor while preserving its multimodal capability. By attaching a lightweight depth head to the LLM backbone and training under a unified vision-text supervision paradigm with a two-stage schedule, DepthVLM generates full-resolution depth maps alongside language outputs in a single forward pass. We further introduce a unified indoor-outdoor metric depth benchmark in a VLM-compatible format. Experiments show that DepthVLM significantly outperforms existing VLMs with higher inference efficiency, surpasses leading pure vision models, and improves complex 3D spatial reasoning, moving toward a truly unified foundation model. All code and checkpoints will be publicly released.