TR2M: Transferindo Profundidade Relativa Monocular para Profundidade Métrica com Descrições Linguísticas e Contraste Orientado à Escala
TR2M: Transferring Monocular Relative Depth to Metric Depth with Language Descriptions and Scale-Oriented Contrast
June 16, 2025
Autores: Beilei Cui, Yiming Huang, Long Bai, Hongliang Ren
cs.AI
Resumo
Este trabalho apresenta uma estrutura generalizável para transferir profundidade relativa para profundidade métrica. Os métodos atuais de estimativa de profundidade monocular são divididos principalmente em estimativa de profundidade métrica (MMDE) e estimativa de profundidade relativa (MRDE). MMDEs estimam a profundidade em escala métrica, mas são frequentemente limitados a um domínio específico. MRDEs generalizam bem em diferentes domínios, mas com escalas incertas, o que dificulta aplicações subsequentes. Para isso, nosso objetivo é construir uma estrutura para resolver a incerteza de escala e transferir profundidade relativa para profundidade métrica. Métodos anteriores usavam linguagem como entrada e estimavam dois fatores para realizar o redimensionamento. Nossa abordagem, TR2M, utiliza tanto a descrição textual quanto a imagem como entradas e estima dois mapas de redimensionamento para transferir profundidade relativa para profundidade métrica em nível de pixel. Características de duas modalidades são fundidas com um módulo de atenção cruzada para capturar melhor as informações de escala. Uma estratégia é projetada para construir e filtrar pseudo profundidade métrica confiante para uma supervisão mais abrangente. Também desenvolvemos aprendizado contrastivo orientado por escala para utilizar a distribuição de profundidade como guia para reforçar o aprendizado do modelo sobre conhecimento intrínseco alinhado com a distribuição de escala. O TR2M explora apenas um pequeno número de parâmetros treináveis para treinar em conjuntos de dados de vários domínios, e os experimentos não apenas demonstram o excelente desempenho do TR2M em conjuntos de dados conhecidos, mas também revelam capacidades superiores de generalização zero-shot em cinco conjuntos de dados não vistos. Mostramos o grande potencial na transferência de profundidade relativa para profundidade métrica em nível de pixel com assistência de linguagem. (O código está disponível em: https://github.com/BeileiCui/TR2M)
English
This work presents a generalizable framework to transfer relative depth to
metric depth. Current monocular depth estimation methods are mainly divided
into metric depth estimation (MMDE) and relative depth estimation (MRDE). MMDEs
estimate depth in metric scale but are often limited to a specific domain.
MRDEs generalize well across different domains, but with uncertain scales which
hinders downstream applications. To this end, we aim to build up a framework to
solve scale uncertainty and transfer relative depth to metric depth. Previous
methods used language as input and estimated two factors for conducting
rescaling. Our approach, TR2M, utilizes both text description and image as
inputs and estimates two rescale maps to transfer relative depth to metric
depth at pixel level. Features from two modalities are fused with a
cross-modality attention module to better capture scale information. A strategy
is designed to construct and filter confident pseudo metric depth for more
comprehensive supervision. We also develop scale-oriented contrastive learning
to utilize depth distribution as guidance to enforce the model learning about
intrinsic knowledge aligning with the scale distribution. TR2M only exploits a
small number of trainable parameters to train on datasets in various domains
and experiments not only demonstrate TR2M's great performance in seen datasets
but also reveal superior zero-shot capabilities on five unseen datasets. We
show the huge potential in pixel-wise transferring relative depth to metric
depth with language assistance. (Code is available at:
https://github.com/BeileiCui/TR2M)