TR2M : Transfert de la profondeur relative monoculaire vers la profondeur métrique avec des descriptions linguistiques et un contraste orienté échelle
TR2M: Transferring Monocular Relative Depth to Metric Depth with Language Descriptions and Scale-Oriented Contrast
June 16, 2025
Auteurs: Beilei Cui, Yiming Huang, Long Bai, Hongliang Ren
cs.AI
Résumé
Ce travail présente un cadre généralisable pour transférer la profondeur relative en profondeur métrique. Les méthodes actuelles d'estimation de profondeur monoculaire se divisent principalement en estimation de profondeur métrique (MMDE) et estimation de profondeur relative (MRDE). Les MMDE estiment la profondeur à l'échelle métrique mais sont souvent limitées à un domaine spécifique. Les MRDE généralisent bien à travers différents domaines, mais avec des échelles incertaines qui entravent les applications en aval. À cette fin, nous visons à construire un cadre pour résoudre l'incertitude d'échelle et transférer la profondeur relative en profondeur métrique. Les méthodes précédentes utilisaient le langage comme entrée et estimaient deux facteurs pour effectuer un redimensionnement. Notre approche, TR2M, utilise à la fois la description textuelle et l'image comme entrées et estime deux cartes de redimensionnement pour transférer la profondeur relative en profondeur métrique au niveau des pixels. Les caractéristiques des deux modalités sont fusionnées avec un module d'attention inter-modalité pour mieux capturer les informations d'échelle. Une stratégie est conçue pour construire et filtrer une pseudo-profondeur métrique confiante pour une supervision plus complète. Nous développons également un apprentissage contrastif orienté échelle pour utiliser la distribution de profondeur comme guide afin de renforcer l'apprentissage du modèle sur les connaissances intrinsèques alignées avec la distribution d'échelle. TR2M n'exploite qu'un petit nombre de paramètres entraînables pour s'entraîner sur des ensembles de données dans divers domaines, et les expériences démontrent non seulement les excellentes performances de TR2M sur les ensembles de données vus, mais révèlent également des capacités de généralisation zéro-shot supérieures sur cinq ensembles de données non vus. Nous montrons le potentiel énorme du transfert pixel par pixel de la profondeur relative en profondeur métrique avec l'assistance du langage. (Le code est disponible à l'adresse : https://github.com/BeileiCui/TR2M)
English
This work presents a generalizable framework to transfer relative depth to
metric depth. Current monocular depth estimation methods are mainly divided
into metric depth estimation (MMDE) and relative depth estimation (MRDE). MMDEs
estimate depth in metric scale but are often limited to a specific domain.
MRDEs generalize well across different domains, but with uncertain scales which
hinders downstream applications. To this end, we aim to build up a framework to
solve scale uncertainty and transfer relative depth to metric depth. Previous
methods used language as input and estimated two factors for conducting
rescaling. Our approach, TR2M, utilizes both text description and image as
inputs and estimates two rescale maps to transfer relative depth to metric
depth at pixel level. Features from two modalities are fused with a
cross-modality attention module to better capture scale information. A strategy
is designed to construct and filter confident pseudo metric depth for more
comprehensive supervision. We also develop scale-oriented contrastive learning
to utilize depth distribution as guidance to enforce the model learning about
intrinsic knowledge aligning with the scale distribution. TR2M only exploits a
small number of trainable parameters to train on datasets in various domains
and experiments not only demonstrate TR2M's great performance in seen datasets
but also reveal superior zero-shot capabilities on five unseen datasets. We
show the huge potential in pixel-wise transferring relative depth to metric
depth with language assistance. (Code is available at:
https://github.com/BeileiCui/TR2M)