Раскрытие плотной метрической оценки глубины в VLM

Аннотация

Модели зрения-языка (VLM) превосходно справляются с двумерными задачами, такими как привязка объектов и создание подписей, однако остаются ограниченными в понимании трёхмерного пространства. Ключевым ограничением является их парадигма обучения, основанная исключительно на текстовом надзоре, что недостаточно ограничивает тонкое визуальное восприятие и препятствует восстановлению плотной геометрии. Предыдущие методы либо извлекают геометрию из внешних моделей зрения, что приводит к накоплению ошибок, либо обеспечивают прямое предсказание с помощью неэффективных попиксельных запросов или грубых выходных данных на уровне токенов. В этой статье мы предлагаем DepthVLM — простую, но эффективную структуру, которая преобразует одну VLM в собственный предсказатель плотной геометрии, сохраняя при этом её мультимодальные возможности. Прикрепляя лёгкую глубинную головку к основе большой языковой модели (LLM) и обучая в рамках единой парадигмы визуально-текстового надзора с двухэтапным графиком, DepthVLM за один прямой проход генерирует полноразрешенные карты глубины вместе с языковыми выходами. Мы также вводим единый метрический бенчмарк глубины для помещений и открытых пространств в формате, совместимом с VLM. Эксперименты показывают, что DepthVLM значительно превосходит существующие VLM при более высокой эффективности инференса, опережает ведущие чисто зрительные модели и улучшает сложное трёхмерное пространственное рассуждение, приближаясь к действительно универсальной фундаментальной модели. Весь код и контрольные точки будут опубликованы в открытом доступе.

English

Vision-Language Models (VLMs) excel at 2D tasks such as grounding and captioning, yet remain limited in 3D understanding. A key limitation is their text-only supervision paradigm, which under-constrains fine-grained visual perception and prevents the recovery of dense geometry. Prior methods either distill geometry from external vision models, introducing error accumulation, or enable direct prediction with inefficient per-pixel query or coarse token-level outputs. In this paper, we propose DepthVLM, a simple yet effective framework that transforms a single VLM into a native dense geometry predictor while preserving its multimodal capability. By attaching a lightweight depth head to the LLM backbone and training under a unified vision-text supervision paradigm with a two-stage schedule, DepthVLM generates full-resolution depth maps alongside language outputs in a single forward pass. We further introduce a unified indoor-outdoor metric depth benchmark in a VLM-compatible format. Experiments show that DepthVLM significantly outperforms existing VLMs with higher inference efficiency, surpasses leading pure vision models, and improves complex 3D spatial reasoning, moving toward a truly unified foundation model. All code and checkpoints will be publicly released.