Agregação de Recursos de Granulação Híbrida com Orientação Linguística de Grosso a Fino para Estimativa de Profundidade Monocular Auto-supervisionada
Hybrid-grained Feature Aggregation with Coarse-to-fine Language Guidance for Self-supervised Monocular Depth Estimation
October 10, 2025
Autores: Wenyao Zhang, Hongsi Liu, Bohan Li, Jiawei He, Zekun Qi, Yunnan Wang, Shengyang Zhao, Xinqiang Yu, Wenjun Zeng, Xin Jin
cs.AI
Resumo
As abordagens atuais de estimativa de profundidade monocular auto-supervisionada (MDE) enfrentam limitações de desempenho devido à extração insuficiente de conhecimento semântico-espacial. Para resolver esse desafio, propomos o Hybrid-depth, um novo framework que integra sistematicamente modelos de base (por exemplo, CLIP e DINO) para extrair priors visuais e adquirir informações contextuais suficientes para MDE. Nossa abordagem introduz um framework de aprendizado progressivo de grosseiro para refinado: 1) Primeiramente, agregamos características multi-granulares do CLIP (semântica global) e do DINO (detalhes espaciais locais) sob orientação de linguagem contrastiva. Uma tarefa proxy comparando patches de imagem próximos e distantes é projetada para reforçar o alinhamento de características conscientes da profundidade usando prompts de texto; 2) Em seguida, com base nas características grosseiras, integramos informações de pose da câmera e alinhamento de linguagem pixel a pixel para refinar as previsões de profundidade. Este módulo se integra perfeitamente com pipelines existentes de MDE auto-supervisionada (por exemplo, Monodepth2, ManyDepth) como um codificador de profundidade plug-and-play, aprimorando a estimativa contínua de profundidade. Ao agregar o contexto semântico do CLIP e os detalhes espaciais do DINO por meio de orientação de linguagem, nosso método resolve efetivamente os desajustes de granularidade de características. Experimentos extensivos no benchmark KITTI demonstram que nosso método supera significativamente os métodos SOTA em todas as métricas, o que também beneficia tarefas subsequentes como percepção BEV. O código está disponível em https://github.com/Zhangwenyao1/Hybrid-depth.
English
Current self-supervised monocular depth estimation (MDE) approaches encounter
performance limitations due to insufficient semantic-spatial knowledge
extraction. To address this challenge, we propose Hybrid-depth, a novel
framework that systematically integrates foundation models (e.g., CLIP and
DINO) to extract visual priors and acquire sufficient contextual information
for MDE. Our approach introduces a coarse-to-fine progressive learning
framework: 1) Firstly, we aggregate multi-grained features from CLIP (global
semantics) and DINO (local spatial details) under contrastive language
guidance. A proxy task comparing close-distant image patches is designed to
enforce depth-aware feature alignment using text prompts; 2) Next, building on
the coarse features, we integrate camera pose information and pixel-wise
language alignment to refine depth predictions. This module seamlessly
integrates with existing self-supervised MDE pipelines (e.g., Monodepth2,
ManyDepth) as a plug-and-play depth encoder, enhancing continuous depth
estimation. By aggregating CLIP's semantic context and DINO's spatial details
through language guidance, our method effectively addresses feature granularity
mismatches. Extensive experiments on the KITTI benchmark demonstrate that our
method significantly outperforms SOTA methods across all metrics, which also
indeed benefits downstream tasks like BEV perception. Code is available at
https://github.com/Zhangwenyao1/Hybrid-depth.