Déverrouiller l'estimation dense de profondeur métrique dans les VLMs

Résumé

Les Modèles Vision-Langage (VLM) excellent dans les tâches 2D telles que l'ancrage (grounding) et le sous-titrage (captioning), mais restent limités dans la compréhension 3D. Une limitation clé réside dans leur paradigme de supervision uniquement textuelle, qui sous-contraint la perception visuelle fine et empêche la récupération d'une géométrie dense. Les méthodes antérieures soit distillent la géométrie à partir de modèles de vision externes, introduisant une accumulation d'erreurs, soit permettent une prédiction directe avec une requête par pixel inefficace ou des sorties grossières au niveau des tokens. Dans cet article, nous proposons DepthVLM, un cadre simple mais efficace qui transforme un VLM unique en un prédicteur natif de géométrie dense tout en préservant sa capacité multimodale. En attachant une tête de profondeur légère au backbone du LLM et en l'entraînant sous un paradigme de supervision vision-texte unifié avec un planning en deux étapes, DepthVLM génère des cartes de profondeur en pleine résolution en parallèle des sorties linguistiques en une seule passe avant. Nous introduisons également un benchmark unifié de profondeur métrique intérieur-extérieur dans un format compatible avec les VLM. Les expériences montrent que DepthVLM surpasse significativement les VLM existants avec une efficacité d'inférence supérieure, dépasse les principaux modèles de vision purs, et améliore le raisonnement spatial 3D complexe, se rapprochant ainsi d'un véritable modèle de fondation unifié. Tout le code et les points de contrôle seront rendus publics.

English

Vision-Language Models (VLMs) excel at 2D tasks such as grounding and captioning, yet remain limited in 3D understanding. A key limitation is their text-only supervision paradigm, which under-constrains fine-grained visual perception and prevents the recovery of dense geometry. Prior methods either distill geometry from external vision models, introducing error accumulation, or enable direct prediction with inefficient per-pixel query or coarse token-level outputs. In this paper, we propose DepthVLM, a simple yet effective framework that transforms a single VLM into a native dense geometry predictor while preserving its multimodal capability. By attaching a lightweight depth head to the LLM backbone and training under a unified vision-text supervision paradigm with a two-stage schedule, DepthVLM generates full-resolution depth maps alongside language outputs in a single forward pass. We further introduce a unified indoor-outdoor metric depth benchmark in a VLM-compatible format. Experiments show that DepthVLM significantly outperforms existing VLMs with higher inference efficiency, surpasses leading pure vision models, and improves complex 3D spatial reasoning, moving toward a truly unified foundation model. All code and checkpoints will be publicly released.