ChatPaper.aiChatPaper

自己教師あり単眼深度推定のための粗粒度から細粒度への言語ガイダンスを伴うハイブリッド粒度特徴集約

Hybrid-grained Feature Aggregation with Coarse-to-fine Language Guidance for Self-supervised Monocular Depth Estimation

October 10, 2025
著者: Wenyao Zhang, Hongsi Liu, Bohan Li, Jiawei He, Zekun Qi, Yunnan Wang, Shengyang Zhao, Xinqiang Yu, Wenjun Zeng, Xin Jin
cs.AI

要旨

現在の自己教師あり単眼深度推定(MDE)手法は、意味的・空間的知識の抽出が不十分であるため、性能に制限があります。この課題に対処するため、我々はHybrid-depthを提案します。これは、基礎モデル(例:CLIPやDINO)を体系的に統合し、視覚的な事前知識を抽出し、MDEに十分な文脈情報を取得する新しいフレームワークです。我々のアプローチは、粗から細への段階的学習フレームワークを導入します:1)まず、CLIP(グローバルな意味)とDINO(ローカルな空間的詳細)からマルチグレインの特徴を対照的な言語ガイダンスの下で集約します。近接・遠隔の画像パッチを比較するプロキシタスクを設計し、テキストプロンプトを使用して深度認識特徴の整合を強化します。2)次に、粗い特徴を基に、カメラポーズ情報とピクセル単位の言語整合を統合し、深度予測を洗練します。このモジュールは、既存の自己教師ありMDEパイプライン(例:Monodepth2、ManyDepth)にシームレスに統合され、プラグアンドプレイの深度エンコーダーとして連続的な深度推定を強化します。CLIPの意味的文脈とDINOの空間的詳細を言語ガイダンスを通じて集約することで、我々の手法は特徴粒度の不一致を効果的に解決します。KITTIベンチマークでの広範な実験により、我々の手法が全てのメトリクスにおいてSOTA手法を大幅に上回ることが示され、BEV知覚などの下流タスクにも確かに利益をもたらすことが実証されました。コードはhttps://github.com/Zhangwenyao1/Hybrid-depthで公開されています。
English
Current self-supervised monocular depth estimation (MDE) approaches encounter performance limitations due to insufficient semantic-spatial knowledge extraction. To address this challenge, we propose Hybrid-depth, a novel framework that systematically integrates foundation models (e.g., CLIP and DINO) to extract visual priors and acquire sufficient contextual information for MDE. Our approach introduces a coarse-to-fine progressive learning framework: 1) Firstly, we aggregate multi-grained features from CLIP (global semantics) and DINO (local spatial details) under contrastive language guidance. A proxy task comparing close-distant image patches is designed to enforce depth-aware feature alignment using text prompts; 2) Next, building on the coarse features, we integrate camera pose information and pixel-wise language alignment to refine depth predictions. This module seamlessly integrates with existing self-supervised MDE pipelines (e.g., Monodepth2, ManyDepth) as a plug-and-play depth encoder, enhancing continuous depth estimation. By aggregating CLIP's semantic context and DINO's spatial details through language guidance, our method effectively addresses feature granularity mismatches. Extensive experiments on the KITTI benchmark demonstrate that our method significantly outperforms SOTA methods across all metrics, which also indeed benefits downstream tasks like BEV perception. Code is available at https://github.com/Zhangwenyao1/Hybrid-depth.
PDF12October 13, 2025