ChatPaper.aiChatPaper

TR2M: Transferencia de la profundidad relativa monocular a profundidad métrica con descripciones lingüísticas y contraste orientado a la escala

TR2M: Transferring Monocular Relative Depth to Metric Depth with Language Descriptions and Scale-Oriented Contrast

June 16, 2025
Autores: Beilei Cui, Yiming Huang, Long Bai, Hongliang Ren
cs.AI

Resumen

Este trabajo presenta un marco generalizable para transferir profundidad relativa a profundidad métrica. Los métodos actuales de estimación de profundidad monocular se dividen principalmente en estimación de profundidad métrica (MMDE) y estimación de profundidad relativa (MRDE). Los MMDE estiman la profundidad en escala métrica, pero a menudo están limitados a un dominio específico. Los MRDE generalizan bien en diferentes dominios, pero con escalas inciertas que dificultan las aplicaciones posteriores. Con este fin, nuestro objetivo es construir un marco para resolver la incertidumbre de escala y transferir la profundidad relativa a profundidad métrica. Métodos anteriores utilizaban el lenguaje como entrada y estimaban dos factores para realizar el reescalado. Nuestro enfoque, TR2M, utiliza tanto la descripción textual como la imagen como entradas y estima dos mapas de reescalado para transferir la profundidad relativa a profundidad métrica a nivel de píxel. Las características de las dos modalidades se fusionan con un módulo de atención cruzada para capturar mejor la información de escala. Se diseña una estrategia para construir y filtrar una pseudo profundidad métrica confiable para una supervisión más completa. También desarrollamos un aprendizaje contrastivo orientado a la escala para utilizar la distribución de profundidad como guía y reforzar el aprendizaje del modelo sobre el conocimiento intrínseco alineado con la distribución de escala. TR2M solo explota un pequeño número de parámetros entrenables para entrenar en conjuntos de datos de diversos dominios, y los experimentos no solo demuestran el gran rendimiento de TR2M en conjuntos de datos vistos, sino que también revelan capacidades superiores de cero-shot en cinco conjuntos de datos no vistos. Mostramos el gran potencial en la transferencia de profundidad relativa a profundidad métrica a nivel de píxel con asistencia del lenguaje. (El código está disponible en: https://github.com/BeileiCui/TR2M)
English
This work presents a generalizable framework to transfer relative depth to metric depth. Current monocular depth estimation methods are mainly divided into metric depth estimation (MMDE) and relative depth estimation (MRDE). MMDEs estimate depth in metric scale but are often limited to a specific domain. MRDEs generalize well across different domains, but with uncertain scales which hinders downstream applications. To this end, we aim to build up a framework to solve scale uncertainty and transfer relative depth to metric depth. Previous methods used language as input and estimated two factors for conducting rescaling. Our approach, TR2M, utilizes both text description and image as inputs and estimates two rescale maps to transfer relative depth to metric depth at pixel level. Features from two modalities are fused with a cross-modality attention module to better capture scale information. A strategy is designed to construct and filter confident pseudo metric depth for more comprehensive supervision. We also develop scale-oriented contrastive learning to utilize depth distribution as guidance to enforce the model learning about intrinsic knowledge aligning with the scale distribution. TR2M only exploits a small number of trainable parameters to train on datasets in various domains and experiments not only demonstrate TR2M's great performance in seen datasets but also reveal superior zero-shot capabilities on five unseen datasets. We show the huge potential in pixel-wise transferring relative depth to metric depth with language assistance. (Code is available at: https://github.com/BeileiCui/TR2M)
PDF12June 18, 2025