ChatPaper.aiChatPaper

TR2M: Het overbrengen van monoculaire relatieve diepte naar metrische diepte met taalomschrijvingen en schaalgerichte contrasten

TR2M: Transferring Monocular Relative Depth to Metric Depth with Language Descriptions and Scale-Oriented Contrast

June 16, 2025
Auteurs: Beilei Cui, Yiming Huang, Long Bai, Hongliang Ren
cs.AI

Samenvatting

Dit werk presenteert een generaliseerbaar raamwerk om relatieve diepte over te dragen naar metrische diepte. Huidige methoden voor monoscopische diepteschatting zijn voornamelijk verdeeld in metrische diepteschatting (MMDE) en relatieve diepteschatting (MRDE). MMDEs schatten diepte op metrische schaal maar zijn vaak beperkt tot een specifiek domein. MRDEs generaliseren goed over verschillende domeinen, maar met onzekere schalen wat downstream toepassingen belemmert. Daarom streven we ernaar een raamwerk op te bouwen om schaalonzekerheid op te lossen en relatieve diepte over te dragen naar metrische diepte. Vorige methoden gebruikten taal als invoer en schatten twee factoren voor het uitvoeren van herschaling. Onze aanpak, TR2M, maakt gebruik van zowel tekstbeschrijving als afbeelding als invoer en schat twee herschaalkaarten om relatieve diepte over te dragen naar metrische diepte op pixelniveau. Kenmerken van twee modaliteiten worden samengevoegd met een cross-modaliteit aandachtmodule om schaalinformatie beter vast te leggen. Een strategie is ontworpen om zelfverzekerde pseudo-metrische diepte te construeren en te filteren voor meer uitgebreide supervisie. We ontwikkelen ook schaalgerichte contrastief leren om diepteverdeling te gebruiken als leidraad om het model te dwingen intrinsieke kennis te leren die overeenkomt met de schaalverdeling. TR2M maakt alleen gebruik van een klein aantal trainbare parameters om te trainen op datasets in verschillende domeinen en experimenten tonen niet alleen de uitstekende prestaties van TR2M op geziene datasets, maar onthullen ook superieure zero-shot mogelijkheden op vijf ongeziene datasets. We tonen het enorme potentieel in pixelniveau overdracht van relatieve diepte naar metrische diepte met taalassistentie. (Code is beschikbaar op: https://github.com/BeileiCui/TR2M)
English
This work presents a generalizable framework to transfer relative depth to metric depth. Current monocular depth estimation methods are mainly divided into metric depth estimation (MMDE) and relative depth estimation (MRDE). MMDEs estimate depth in metric scale but are often limited to a specific domain. MRDEs generalize well across different domains, but with uncertain scales which hinders downstream applications. To this end, we aim to build up a framework to solve scale uncertainty and transfer relative depth to metric depth. Previous methods used language as input and estimated two factors for conducting rescaling. Our approach, TR2M, utilizes both text description and image as inputs and estimates two rescale maps to transfer relative depth to metric depth at pixel level. Features from two modalities are fused with a cross-modality attention module to better capture scale information. A strategy is designed to construct and filter confident pseudo metric depth for more comprehensive supervision. We also develop scale-oriented contrastive learning to utilize depth distribution as guidance to enforce the model learning about intrinsic knowledge aligning with the scale distribution. TR2M only exploits a small number of trainable parameters to train on datasets in various domains and experiments not only demonstrate TR2M's great performance in seen datasets but also reveal superior zero-shot capabilities on five unseen datasets. We show the huge potential in pixel-wise transferring relative depth to metric depth with language assistance. (Code is available at: https://github.com/BeileiCui/TR2M)
PDF32June 18, 2025