TR2M: Trasferimento della Profondità Relativa Monoculare in Profondità Metrica con Descrizioni Linguistiche e Contrasto Orientato alla Scala
TR2M: Transferring Monocular Relative Depth to Metric Depth with Language Descriptions and Scale-Oriented Contrast
June 16, 2025
Autori: Beilei Cui, Yiming Huang, Long Bai, Hongliang Ren
cs.AI
Abstract
Questo lavoro presenta un framework generalizzabile per trasferire la profondità relativa in profondità metrica. I metodi attuali di stima della profondità monoculare sono principalmente divisi in stima della profondità metrica (MMDE) e stima della profondità relativa (MRDE). Gli MMDE stimano la profondità in scala metrica ma sono spesso limitati a un dominio specifico. Gli MRDE generalizzano bene tra diversi domini, ma con scale incerte che ostacolano le applicazioni a valle. A tal fine, miriamo a costruire un framework per risolvere l'incertezza della scala e trasferire la profondità relativa in profondità metrica. I metodi precedenti utilizzavano il linguaggio come input e stimavano due fattori per eseguire il ridimensionamento. Il nostro approccio, TR2M, utilizza sia la descrizione testuale che l'immagine come input e stima due mappe di ridimensionamento per trasferire la profondità relativa in profondità metrica a livello di pixel. Le caratteristiche delle due modalità vengono fuse con un modulo di attenzione cross-modale per catturare meglio le informazioni sulla scala. Una strategia è stata progettata per costruire e filtrare pseudo profondità metriche affidabili per una supervisione più completa. Abbiamo anche sviluppato un apprendimento contrastivo orientato alla scala per utilizzare la distribuzione della profondità come guida per rafforzare l'apprendimento del modello riguardo alla conoscenza intrinseca allineata con la distribuzione della scala. TR2M sfrutta solo un piccolo numero di parametri addestrabili per addestrarsi su dataset in vari domini e gli esperimenti non solo dimostrano le eccellenti prestazioni di TR2M sui dataset visti, ma rivelano anche capacità superiori di zero-shot su cinque dataset non visti. Mostriamo il grande potenziale nel trasferimento pixel-wise della profondità relativa in profondità metrica con l'assistenza del linguaggio. (Il codice è disponibile all'indirizzo: https://github.com/BeileiCui/TR2M)
English
This work presents a generalizable framework to transfer relative depth to
metric depth. Current monocular depth estimation methods are mainly divided
into metric depth estimation (MMDE) and relative depth estimation (MRDE). MMDEs
estimate depth in metric scale but are often limited to a specific domain.
MRDEs generalize well across different domains, but with uncertain scales which
hinders downstream applications. To this end, we aim to build up a framework to
solve scale uncertainty and transfer relative depth to metric depth. Previous
methods used language as input and estimated two factors for conducting
rescaling. Our approach, TR2M, utilizes both text description and image as
inputs and estimates two rescale maps to transfer relative depth to metric
depth at pixel level. Features from two modalities are fused with a
cross-modality attention module to better capture scale information. A strategy
is designed to construct and filter confident pseudo metric depth for more
comprehensive supervision. We also develop scale-oriented contrastive learning
to utilize depth distribution as guidance to enforce the model learning about
intrinsic knowledge aligning with the scale distribution. TR2M only exploits a
small number of trainable parameters to train on datasets in various domains
and experiments not only demonstrate TR2M's great performance in seen datasets
but also reveal superior zero-shot capabilities on five unseen datasets. We
show the huge potential in pixel-wise transferring relative depth to metric
depth with language assistance. (Code is available at:
https://github.com/BeileiCui/TR2M)