Agregação de Recursos de Granulação Híbrida com Orientação Linguística de Grosso a Fino para Estimativa de Profundidade Monocular Auto-supervisionada

Resumo

As abordagens atuais de estimativa de profundidade monocular auto-supervisionada (MDE) enfrentam limitações de desempenho devido à extração insuficiente de conhecimento semântico-espacial. Para resolver esse desafio, propomos o Hybrid-depth, um novo framework que integra sistematicamente modelos de base (por exemplo, CLIP e DINO) para extrair priors visuais e adquirir informações contextuais suficientes para MDE. Nossa abordagem introduz um framework de aprendizado progressivo de grosseiro para refinado: 1) Primeiramente, agregamos características multi-granulares do CLIP (semântica global) e do DINO (detalhes espaciais locais) sob orientação de linguagem contrastiva. Uma tarefa proxy comparando patches de imagem próximos e distantes é projetada para reforçar o alinhamento de características conscientes da profundidade usando prompts de texto; 2) Em seguida, com base nas características grosseiras, integramos informações de pose da câmera e alinhamento de linguagem pixel a pixel para refinar as previsões de profundidade. Este módulo se integra perfeitamente com pipelines existentes de MDE auto-supervisionada (por exemplo, Monodepth2, ManyDepth) como um codificador de profundidade plug-and-play, aprimorando a estimativa contínua de profundidade. Ao agregar o contexto semântico do CLIP e os detalhes espaciais do DINO por meio de orientação de linguagem, nosso método resolve efetivamente os desajustes de granularidade de características. Experimentos extensivos no benchmark KITTI demonstram que nosso método supera significativamente os métodos SOTA em todas as métricas, o que também beneficia tarefas subsequentes como percepção BEV. O código está disponível em https://github.com/Zhangwenyao1/Hybrid-depth.

English

Current self-supervised monocular depth estimation (MDE) approaches encounter performance limitations due to insufficient semantic-spatial knowledge extraction. To address this challenge, we propose Hybrid-depth, a novel framework that systematically integrates foundation models (e.g., CLIP and DINO) to extract visual priors and acquire sufficient contextual information for MDE. Our approach introduces a coarse-to-fine progressive learning framework: 1) Firstly, we aggregate multi-grained features from CLIP (global semantics) and DINO (local spatial details) under contrastive language guidance. A proxy task comparing close-distant image patches is designed to enforce depth-aware feature alignment using text prompts; 2) Next, building on the coarse features, we integrate camera pose information and pixel-wise language alignment to refine depth predictions. This module seamlessly integrates with existing self-supervised MDE pipelines (e.g., Monodepth2, ManyDepth) as a plug-and-play depth encoder, enhancing continuous depth estimation. By aggregating CLIP's semantic context and DINO's spatial details through language guidance, our method effectively addresses feature granularity mismatches. Extensive experiments on the KITTI benchmark demonstrate that our method significantly outperforms SOTA methods across all metrics, which also indeed benefits downstream tasks like BEV perception. Code is available at https://github.com/Zhangwenyao1/Hybrid-depth.

Agregação de Recursos de Granulação Híbrida com Orientação Linguística de Grosso a Fino para Estimativa de Profundidade Monocular Auto-supervisionada

Hybrid-grained Feature Aggregation with Coarse-to-fine Language Guidance for Self-supervised Monocular Depth Estimation

Resumo

Support