Aggregazione di Caratteristiche a Grana Ibrida con Guida Linguistica da Grossolana a Fine per la Stima della Profondità Monoculare Auto-supervisionata

Abstract

Gli attuali approcci di stima della profondità monoculare auto-supervisionata (MDE) incontrano limitazioni di prestazioni dovute a un'estrazione insufficiente di conoscenza semantico-spaziale. Per affrontare questa sfida, proponiamo Hybrid-depth, un nuovo framework che integra sistematicamente modelli di base (ad esempio, CLIP e DINO) per estrarre prior visive e acquisire sufficienti informazioni contestuali per la MDE. Il nostro approccio introduce un framework di apprendimento progressivo da grossolano a fine: 1) In primo luogo, aggregiamo caratteristiche multi-granulari da CLIP (semantica globale) e DINO (dettagli spaziali locali) sotto la guida contrastiva del linguaggio. Un task proxy che confronta patch di immagini vicine e lontane è progettato per imporre un allineamento delle caratteristiche consapevole della profondità utilizzando prompt testuali; 2) Successivamente, basandoci sulle caratteristiche grossolane, integriamo informazioni sulla posa della fotocamera e un allineamento linguistico pixel-per-pixel per affinare le previsioni di profondità. Questo modulo si integra perfettamente con le pipeline esistenti di MDE auto-supervisionata (ad esempio, Monodepth2, ManyDepth) come un codificatore di profondità plug-and-play, migliorando la stima continua della profondità. Aggregando il contesto semantico di CLIP e i dettagli spaziali di DINO attraverso la guida del linguaggio, il nostro metodo affronta efficacemente le discrepanze di granularità delle caratteristiche. Esperimenti estensivi sul benchmark KITTI dimostrano che il nostro metodo supera significativamente i metodi SOTA in tutte le metriche, il che beneficia anche effettivamente task a valle come la percezione BEV. Il codice è disponibile all'indirizzo https://github.com/Zhangwenyao1/Hybrid-depth.

English

Current self-supervised monocular depth estimation (MDE) approaches encounter performance limitations due to insufficient semantic-spatial knowledge extraction. To address this challenge, we propose Hybrid-depth, a novel framework that systematically integrates foundation models (e.g., CLIP and DINO) to extract visual priors and acquire sufficient contextual information for MDE. Our approach introduces a coarse-to-fine progressive learning framework: 1) Firstly, we aggregate multi-grained features from CLIP (global semantics) and DINO (local spatial details) under contrastive language guidance. A proxy task comparing close-distant image patches is designed to enforce depth-aware feature alignment using text prompts; 2) Next, building on the coarse features, we integrate camera pose information and pixel-wise language alignment to refine depth predictions. This module seamlessly integrates with existing self-supervised MDE pipelines (e.g., Monodepth2, ManyDepth) as a plug-and-play depth encoder, enhancing continuous depth estimation. By aggregating CLIP's semantic context and DINO's spatial details through language guidance, our method effectively addresses feature granularity mismatches. Extensive experiments on the KITTI benchmark demonstrate that our method significantly outperforms SOTA methods across all metrics, which also indeed benefits downstream tasks like BEV perception. Code is available at https://github.com/Zhangwenyao1/Hybrid-depth.

Aggregazione di Caratteristiche a Grana Ibrida con Guida Linguistica da Grossolana a Fine per la Stima della Profondità Monoculare Auto-supervisionata

Hybrid-grained Feature Aggregation with Coarse-to-fine Language Guidance for Self-supervised Monocular Depth Estimation

Abstract

Support