Aggregazione di Caratteristiche a Grana Ibrida con Guida Linguistica da Grossolana a Fine per la Stima della Profondità Monoculare Auto-supervisionata
Hybrid-grained Feature Aggregation with Coarse-to-fine Language Guidance for Self-supervised Monocular Depth Estimation
October 10, 2025
Autori: Wenyao Zhang, Hongsi Liu, Bohan Li, Jiawei He, Zekun Qi, Yunnan Wang, Shengyang Zhao, Xinqiang Yu, Wenjun Zeng, Xin Jin
cs.AI
Abstract
Gli attuali approcci di stima della profondità monoculare auto-supervisionata (MDE) incontrano limitazioni di prestazioni dovute a un'estrazione insufficiente di conoscenza semantico-spaziale. Per affrontare questa sfida, proponiamo Hybrid-depth, un nuovo framework che integra sistematicamente modelli di base (ad esempio, CLIP e DINO) per estrarre prior visive e acquisire sufficienti informazioni contestuali per la MDE. Il nostro approccio introduce un framework di apprendimento progressivo da grossolano a fine: 1) In primo luogo, aggregiamo caratteristiche multi-granulari da CLIP (semantica globale) e DINO (dettagli spaziali locali) sotto la guida contrastiva del linguaggio. Un task proxy che confronta patch di immagini vicine e lontane è progettato per imporre un allineamento delle caratteristiche consapevole della profondità utilizzando prompt testuali; 2) Successivamente, basandoci sulle caratteristiche grossolane, integriamo informazioni sulla posa della fotocamera e un allineamento linguistico pixel-per-pixel per affinare le previsioni di profondità. Questo modulo si integra perfettamente con le pipeline esistenti di MDE auto-supervisionata (ad esempio, Monodepth2, ManyDepth) come un codificatore di profondità plug-and-play, migliorando la stima continua della profondità. Aggregando il contesto semantico di CLIP e i dettagli spaziali di DINO attraverso la guida del linguaggio, il nostro metodo affronta efficacemente le discrepanze di granularità delle caratteristiche. Esperimenti estensivi sul benchmark KITTI dimostrano che il nostro metodo supera significativamente i metodi SOTA in tutte le metriche, il che beneficia anche effettivamente task a valle come la percezione BEV. Il codice è disponibile all'indirizzo https://github.com/Zhangwenyao1/Hybrid-depth.
English
Current self-supervised monocular depth estimation (MDE) approaches encounter
performance limitations due to insufficient semantic-spatial knowledge
extraction. To address this challenge, we propose Hybrid-depth, a novel
framework that systematically integrates foundation models (e.g., CLIP and
DINO) to extract visual priors and acquire sufficient contextual information
for MDE. Our approach introduces a coarse-to-fine progressive learning
framework: 1) Firstly, we aggregate multi-grained features from CLIP (global
semantics) and DINO (local spatial details) under contrastive language
guidance. A proxy task comparing close-distant image patches is designed to
enforce depth-aware feature alignment using text prompts; 2) Next, building on
the coarse features, we integrate camera pose information and pixel-wise
language alignment to refine depth predictions. This module seamlessly
integrates with existing self-supervised MDE pipelines (e.g., Monodepth2,
ManyDepth) as a plug-and-play depth encoder, enhancing continuous depth
estimation. By aggregating CLIP's semantic context and DINO's spatial details
through language guidance, our method effectively addresses feature granularity
mismatches. Extensive experiments on the KITTI benchmark demonstrate that our
method significantly outperforms SOTA methods across all metrics, which also
indeed benefits downstream tasks like BEV perception. Code is available at
https://github.com/Zhangwenyao1/Hybrid-depth.