TR2M: Transferindo Profundidade Relativa Monocular para Profundidade Métrica com Descrições Linguísticas e Contraste Orientado à Escala

Resumo

Este trabalho apresenta uma estrutura generalizável para transferir profundidade relativa para profundidade métrica. Os métodos atuais de estimativa de profundidade monocular são divididos principalmente em estimativa de profundidade métrica (MMDE) e estimativa de profundidade relativa (MRDE). MMDEs estimam a profundidade em escala métrica, mas são frequentemente limitados a um domínio específico. MRDEs generalizam bem em diferentes domínios, mas com escalas incertas, o que dificulta aplicações subsequentes. Para isso, nosso objetivo é construir uma estrutura para resolver a incerteza de escala e transferir profundidade relativa para profundidade métrica. Métodos anteriores usavam linguagem como entrada e estimavam dois fatores para realizar o redimensionamento. Nossa abordagem, TR2M, utiliza tanto a descrição textual quanto a imagem como entradas e estima dois mapas de redimensionamento para transferir profundidade relativa para profundidade métrica em nível de pixel. Características de duas modalidades são fundidas com um módulo de atenção cruzada para capturar melhor as informações de escala. Uma estratégia é projetada para construir e filtrar pseudo profundidade métrica confiante para uma supervisão mais abrangente. Também desenvolvemos aprendizado contrastivo orientado por escala para utilizar a distribuição de profundidade como guia para reforçar o aprendizado do modelo sobre conhecimento intrínseco alinhado com a distribuição de escala. O TR2M explora apenas um pequeno número de parâmetros treináveis para treinar em conjuntos de dados de vários domínios, e os experimentos não apenas demonstram o excelente desempenho do TR2M em conjuntos de dados conhecidos, mas também revelam capacidades superiores de generalização zero-shot em cinco conjuntos de dados não vistos. Mostramos o grande potencial na transferência de profundidade relativa para profundidade métrica em nível de pixel com assistência de linguagem. (O código está disponível em: https://github.com/BeileiCui/TR2M)

English

This work presents a generalizable framework to transfer relative depth to metric depth. Current monocular depth estimation methods are mainly divided into metric depth estimation (MMDE) and relative depth estimation (MRDE). MMDEs estimate depth in metric scale but are often limited to a specific domain. MRDEs generalize well across different domains, but with uncertain scales which hinders downstream applications. To this end, we aim to build up a framework to solve scale uncertainty and transfer relative depth to metric depth. Previous methods used language as input and estimated two factors for conducting rescaling. Our approach, TR2M, utilizes both text description and image as inputs and estimates two rescale maps to transfer relative depth to metric depth at pixel level. Features from two modalities are fused with a cross-modality attention module to better capture scale information. A strategy is designed to construct and filter confident pseudo metric depth for more comprehensive supervision. We also develop scale-oriented contrastive learning to utilize depth distribution as guidance to enforce the model learning about intrinsic knowledge aligning with the scale distribution. TR2M only exploits a small number of trainable parameters to train on datasets in various domains and experiments not only demonstrate TR2M's great performance in seen datasets but also reveal superior zero-shot capabilities on five unseen datasets. We show the huge potential in pixel-wise transferring relative depth to metric depth with language assistance. (Code is available at: https://github.com/BeileiCui/TR2M)

TR2M: Transferindo Profundidade Relativa Monocular para Profundidade Métrica com Descrições Linguísticas e Contraste Orientado à Escala

TR2M: Transferring Monocular Relative Depth to Metric Depth with Language Descriptions and Scale-Oriented Contrast

Resumo

Support