自己教師あり単眼深度推定のための粗粒度から細粒度への言語ガイダンスを伴うハイブリッド粒度特徴集約
Hybrid-grained Feature Aggregation with Coarse-to-fine Language Guidance for Self-supervised Monocular Depth Estimation
October 10, 2025
著者: Wenyao Zhang, Hongsi Liu, Bohan Li, Jiawei He, Zekun Qi, Yunnan Wang, Shengyang Zhao, Xinqiang Yu, Wenjun Zeng, Xin Jin
cs.AI
要旨
現在の自己教師あり単眼深度推定(MDE)手法は、意味的・空間的知識の抽出が不十分であるため、性能に制限があります。この課題に対処するため、我々はHybrid-depthを提案します。これは、基礎モデル(例:CLIPやDINO)を体系的に統合し、視覚的な事前知識を抽出し、MDEに十分な文脈情報を取得する新しいフレームワークです。我々のアプローチは、粗から細への段階的学習フレームワークを導入します:1)まず、CLIP(グローバルな意味)とDINO(ローカルな空間的詳細)からマルチグレインの特徴を対照的な言語ガイダンスの下で集約します。近接・遠隔の画像パッチを比較するプロキシタスクを設計し、テキストプロンプトを使用して深度認識特徴の整合を強化します。2)次に、粗い特徴を基に、カメラポーズ情報とピクセル単位の言語整合を統合し、深度予測を洗練します。このモジュールは、既存の自己教師ありMDEパイプライン(例:Monodepth2、ManyDepth)にシームレスに統合され、プラグアンドプレイの深度エンコーダーとして連続的な深度推定を強化します。CLIPの意味的文脈とDINOの空間的詳細を言語ガイダンスを通じて集約することで、我々の手法は特徴粒度の不一致を効果的に解決します。KITTIベンチマークでの広範な実験により、我々の手法が全てのメトリクスにおいてSOTA手法を大幅に上回ることが示され、BEV知覚などの下流タスクにも確かに利益をもたらすことが実証されました。コードはhttps://github.com/Zhangwenyao1/Hybrid-depthで公開されています。
English
Current self-supervised monocular depth estimation (MDE) approaches encounter
performance limitations due to insufficient semantic-spatial knowledge
extraction. To address this challenge, we propose Hybrid-depth, a novel
framework that systematically integrates foundation models (e.g., CLIP and
DINO) to extract visual priors and acquire sufficient contextual information
for MDE. Our approach introduces a coarse-to-fine progressive learning
framework: 1) Firstly, we aggregate multi-grained features from CLIP (global
semantics) and DINO (local spatial details) under contrastive language
guidance. A proxy task comparing close-distant image patches is designed to
enforce depth-aware feature alignment using text prompts; 2) Next, building on
the coarse features, we integrate camera pose information and pixel-wise
language alignment to refine depth predictions. This module seamlessly
integrates with existing self-supervised MDE pipelines (e.g., Monodepth2,
ManyDepth) as a plug-and-play depth encoder, enhancing continuous depth
estimation. By aggregating CLIP's semantic context and DINO's spatial details
through language guidance, our method effectively addresses feature granularity
mismatches. Extensive experiments on the KITTI benchmark demonstrate that our
method significantly outperforms SOTA methods across all metrics, which also
indeed benefits downstream tasks like BEV perception. Code is available at
https://github.com/Zhangwenyao1/Hybrid-depth.