ChatPaper.aiChatPaper

DepthLM : Estimation de la profondeur métrique à partir de modèles de vision et de langage

DepthLM: Metric Depth From Vision Language Models

September 29, 2025
papers.authors: Zhipeng Cai, Ching-Feng Yeh, Hu Xu, Zhuang Liu, Gregory Meyer, Xinjie Lei, Changsheng Zhao, Shang-Wen Li, Vikas Chandra, Yangyang Shi
cs.AI

papers.abstract

Les modèles de vision et langage (VLMs) peuvent aborder de manière flexible diverses tâches visuelles grâce à des interactions textuelles. Bien que performants dans la compréhension sémantique, les VLMs de pointe, y compris GPT-5, peinent encore à comprendre la 3D à partir d'entrées 2D. D'un autre côté, les modèles de vision pure experts atteignent une précision surhumaine dans l'estimation de la profondeur métrique, une tâche clé de compréhension 3D. Cependant, ils nécessitent des architectures et des fonctions de perte spécifiques à la tâche. Cette différence nous amène à poser la question : Les VLMs peuvent-ils atteindre une précision de niveau expert sans modification de l'architecture ou de la fonction de perte ? Nous prenons l'estimation de la profondeur métrique par pixel comme tâche représentative et montrons que la réponse est oui ! Étonnamment, une analyse approfondie révèle qu'un ajustement supervisé basé sur le texte avec des annotations éparses suffit aux VLMs pour débloquer une compréhension 3D robuste, sans nécessiter de tête de prédiction dense ou de fonction de perte complexe de régression/régularisation. Le goulot d'étranglement pour les VLMs réside en réalité dans la référence pixel et l'ambiguïté de la caméra entre les jeux de données, que nous résolvons grâce à l'incitation visuelle et à l'augmentation conditionnée intrinsèque. Avec des modèles bien plus petits, notre méthode DepthLM dépasse la précision des VLMs les plus avancés de plus de 2 fois, rendant pour la première fois les VLMs comparables aux modèles de vision pure. Fait intéressant, sans imposition explicite pendant l'entraînement, les VLMs entraînés avec DepthLM évitent naturellement le lissage excessif, présentant beaucoup moins de points flottants dans les régions de bordure que les modèles de vision pure. La simplicité de DepthLM permet également à un seul VLM de couvrir diverses tâches 3D au-delà de la profondeur métrique. Notre code et modèle seront publiés au lien ci-dessous.
English
Vision language models (VLMs) can flexibly address various vision tasks through text interactions. Although successful in semantic understanding, state-of-the-art VLMs including GPT-5 still struggle in understanding 3D from 2D inputs. On the other hand, expert pure vision models achieve super-human accuracy in metric depth estimation, a key 3D understanding task. However, they require task-specific architectures and losses. Such difference motivates us to ask: Can VLMs reach expert-level accuracy without architecture or loss change? We take per-pixel metric depth estimation as the representative task and show that the answer is yes! Surprisingly, comprehensive analysis shows that text-based supervised-finetuning with sparse labels is sufficient for VLMs to unlock strong 3D understanding, no dense prediction head or complex regression/regularization loss is needed. The bottleneck for VLMs lies actually in pixel reference and cross-dataset camera ambiguity, which we address through visual prompting and intrinsic-conditioned augmentation. With much smaller models, our method DepthLM surpasses the accuracy of most advanced VLMs by over 2x, making VLMs for the first time comparable with pure vision models. Interestingly, without explicit enforcement during training, VLMs trained with DepthLM naturally avoids over-smoothing, having much fewer flying points at boundary regions than pure vision models. The simplicity of DepthLM also enables a single VLM to cover various 3D tasks beyond metric depth. Our code and model will be released at the link below.
PDF01October 1, 2025