DepthLM: 시각 언어 모델을 통한 계측적 깊이 추정
DepthLM: Metric Depth From Vision Language Models
September 29, 2025
저자: Zhipeng Cai, Ching-Feng Yeh, Hu Xu, Zhuang Liu, Gregory Meyer, Xinjie Lei, Changsheng Zhao, Shang-Wen Li, Vikas Chandra, Yangyang Shi
cs.AI
초록
비전 언어 모델(VLMs)은 텍스트 상호작용을 통해 다양한 비전 작업을 유연하게 처리할 수 있습니다. 의미 이해에서는 성공적이지만, GPT-5를 포함한 최신 VLMs도 여전히 2D 입력에서 3D를 이해하는 데 어려움을 겪고 있습니다. 반면, 전문적인 순수 비전 모델은 3D 이해의 핵심 작업인 미터법 깊이 추정에서 인간을 뛰어넘는 정확도를 달성합니다. 그러나 이러한 모델은 작업별 아키텍처와 손실 함수가 필요합니다. 이러한 차이는 다음과 같은 질문을 제기합니다: VLMs가 아키텍처나 손실 함수 변경 없이 전문가 수준의 정확도에 도달할 수 있을까요? 우리는 픽셀 단위 미터법 깊이 추정을 대표 작업으로 삼아 그 답이 '그렇다'는 것을 보여줍니다! 놀랍게도, 포괄적인 분석 결과, 희소 레이블을 사용한 텍스트 기반 지도 미세 조정만으로도 VLMs가 강력한 3D 이해 능력을 발휘할 수 있으며, 밀집 예측 헤드나 복잡한 회귀/정규화 손실 함수가 필요하지 않다는 것이 밝혀졌습니다. VLMs의 병목 현상은 실제로 픽셀 참조와 데이터셋 간 카메라 모호성에 있으며, 이를 시각적 프롬프팅과 내재적 조건 증강을 통해 해결합니다. 훨씬 작은 모델로도 우리의 방법인 DepthLM은 대부분의 최신 VLMs의 정확도를 2배 이상 능가하며, VLMs가 처음으로 순수 비전 모델과 비교 가능한 수준에 도달했습니다. 흥미롭게도, 훈련 중 명시적인 강제 없이도 DepthLM으로 훈련된 VLMs는 자연스럽게 과도한 평활화를 피하며, 경계 영역에서 순수 비전 모델보다 훨씬 적은 비행점(flying points)을 가집니다. DepthLM의 단순성은 또한 단일 VLM이 미터법 깊이를 넘어 다양한 3D 작업을 포괄할 수 있게 합니다. 우리의 코드와 모델은 아래 링크에서 공개될 예정입니다.
English
Vision language models (VLMs) can flexibly address various vision tasks
through text interactions. Although successful in semantic understanding,
state-of-the-art VLMs including GPT-5 still struggle in understanding 3D from
2D inputs. On the other hand, expert pure vision models achieve super-human
accuracy in metric depth estimation, a key 3D understanding task. However, they
require task-specific architectures and losses. Such difference motivates us to
ask: Can VLMs reach expert-level accuracy without architecture or loss change?
We take per-pixel metric depth estimation as the representative task and show
that the answer is yes! Surprisingly, comprehensive analysis shows that
text-based supervised-finetuning with sparse labels is sufficient for VLMs to
unlock strong 3D understanding, no dense prediction head or complex
regression/regularization loss is needed. The bottleneck for VLMs lies actually
in pixel reference and cross-dataset camera ambiguity, which we address through
visual prompting and intrinsic-conditioned augmentation. With much smaller
models, our method DepthLM surpasses the accuracy of most advanced VLMs by over
2x, making VLMs for the first time comparable with pure vision models.
Interestingly, without explicit enforcement during training, VLMs trained with
DepthLM naturally avoids over-smoothing, having much fewer flying points at
boundary regions than pure vision models. The simplicity of DepthLM also
enables a single VLM to cover various 3D tasks beyond metric depth. Our code
and model will be released at the link below.