자기 지도 학습 단안 깊이 추정을 위한 Coarse-to-fine 언어 지도를 활용한 하이브리드 세분화 특징 집계
Hybrid-grained Feature Aggregation with Coarse-to-fine Language Guidance for Self-supervised Monocular Depth Estimation
October 10, 2025
저자: Wenyao Zhang, Hongsi Liu, Bohan Li, Jiawei He, Zekun Qi, Yunnan Wang, Shengyang Zhao, Xinqiang Yu, Wenjun Zeng, Xin Jin
cs.AI
초록
현재의 자기 지도 단안 깊이 추정(MDE) 접근법들은 충분하지 않은 의미론적-공간적 지식 추출로 인해 성능 한계에 직면하고 있습니다. 이러한 문제를 해결하기 위해, 우리는 시각적 사전 지식을 추출하고 MDE를 위한 충분한 문맥 정보를 획득하기 위해 기초 모델들(예: CLIP 및 DINO)을 체계적으로 통합한 새로운 프레임워크인 Hybrid-depth를 제안합니다. 우리의 접근법은 거친 단계에서 세밀한 단계로의 점진적 학습 프레임워크를 도입합니다: 1) 먼저, CLIP(전역 의미론)과 DINO(지역 공간 세부 사항)로부터 다중 수준의 특징들을 대조적 언어 지도 하에 통합합니다. 텍스트 프롬프트를 사용하여 깊이 인식 특징 정렬을 강제하기 위해 가까운-먼 이미지 패치 비교 프록시 작업을 설계합니다; 2) 다음으로, 거친 특징들을 기반으로 카메라 포즈 정보와 픽셀 단위 언어 정렬을 통합하여 깊이 예측을 개선합니다. 이 모듈은 기존의 자기 지도 MDE 파이프라인(예: Monodepth2, ManyDepth)과 플러그 앤 플레이 깊이 인코더로 원활하게 통합되어 연속적인 깊이 추정을 향상시킵니다. 언어 지도를 통해 CLIP의 의미론적 문맥과 DINO의 공간적 세부 사항을 통합함으로써, 우리의 방법은 특징 세분화 불일치 문제를 효과적으로 해결합니다. KITTI 벤치마크에서의 광범위한 실험을 통해, 우리의 방법이 모든 지표에서 SOTA 방법들을 크게 능가하며, BEV 인식과 같은 하위 작업에도 실제로 이점을 제공함을 입증했습니다. 코드는 https://github.com/Zhangwenyao1/Hybrid-depth에서 확인할 수 있습니다.
English
Current self-supervised monocular depth estimation (MDE) approaches encounter
performance limitations due to insufficient semantic-spatial knowledge
extraction. To address this challenge, we propose Hybrid-depth, a novel
framework that systematically integrates foundation models (e.g., CLIP and
DINO) to extract visual priors and acquire sufficient contextual information
for MDE. Our approach introduces a coarse-to-fine progressive learning
framework: 1) Firstly, we aggregate multi-grained features from CLIP (global
semantics) and DINO (local spatial details) under contrastive language
guidance. A proxy task comparing close-distant image patches is designed to
enforce depth-aware feature alignment using text prompts; 2) Next, building on
the coarse features, we integrate camera pose information and pixel-wise
language alignment to refine depth predictions. This module seamlessly
integrates with existing self-supervised MDE pipelines (e.g., Monodepth2,
ManyDepth) as a plug-and-play depth encoder, enhancing continuous depth
estimation. By aggregating CLIP's semantic context and DINO's spatial details
through language guidance, our method effectively addresses feature granularity
mismatches. Extensive experiments on the KITTI benchmark demonstrate that our
method significantly outperforms SOTA methods across all metrics, which also
indeed benefits downstream tasks like BEV perception. Code is available at
https://github.com/Zhangwenyao1/Hybrid-depth.