TR2M: Übertragung monokularer relativer Tiefe auf metrische Tiefe mit Sprachbeschreibungen und skalenorientiertem Kontrast
TR2M: Transferring Monocular Relative Depth to Metric Depth with Language Descriptions and Scale-Oriented Contrast
June 16, 2025
Autoren: Beilei Cui, Yiming Huang, Long Bai, Hongliang Ren
cs.AI
Zusammenfassung
Diese Arbeit präsentiert ein generalisierbares Framework, um relative Tiefe in metrische Tiefe zu übertragen. Aktuelle Methoden zur monokularen Tiefenschätzung lassen sich hauptsächlich in metrische Tiefenschätzung (MMDE) und relative Tiefenschätzung (MRDE) unterteilen. MMDEs schätzen die Tiefe in metrischem Maßstab, sind jedoch oft auf einen spezifischen Bereich beschränkt. MRDEs generalisieren gut über verschiedene Bereiche hinweg, jedoch mit unsicheren Skalen, was nachgelagerte Anwendungen behindert. Daher zielen wir darauf ab, ein Framework zu entwickeln, das die Skalenunsicherheit löst und relative Tiefe in metrische Tiefe überträgt. Bisherige Methoden verwendeten Sprache als Eingabe und schätzten zwei Faktoren für die Neuskalierung. Unser Ansatz, TR2M, nutzt sowohl Textbeschreibungen als auch Bilder als Eingaben und schätzt zwei Neuskalierungskarten, um relative Tiefe auf Pixelebene in metrische Tiefe zu übertragen. Merkmale aus beiden Modalitäten werden mit einem Cross-Modality-Attention-Modul fusioniert, um Skaleninformationen besser zu erfassen. Eine Strategie wurde entwickelt, um vertrauenswürdige pseudo-metrische Tiefe zu konstruieren und zu filtern, um eine umfassendere Überwachung zu ermöglichen. Wir entwickeln auch skalierungsorientiertes kontrastives Lernen, um die Tiefenverteilung als Leitfaden zu nutzen und das Modell dazu zu bringen, intrinsisches Wissen zu erlernen, das mit der Skalenverteilung übereinstimmt. TR2M nutzt nur eine geringe Anzahl trainierbarer Parameter, um auf Datensätzen in verschiedenen Bereichen zu trainieren, und Experimente zeigen nicht nur die hervorragende Leistung von TR2M auf bekannten Datensätzen, sondern auch überragende Zero-Shot-Fähigkeiten auf fünf unbekannten Datensätzen. Wir zeigen das enorme Potenzial der pixelweisen Übertragung von relativer Tiefe in metrische Tiefe mit Sprachunterstützung. (Der Code ist verfügbar unter: https://github.com/BeileiCui/TR2M)
English
This work presents a generalizable framework to transfer relative depth to
metric depth. Current monocular depth estimation methods are mainly divided
into metric depth estimation (MMDE) and relative depth estimation (MRDE). MMDEs
estimate depth in metric scale but are often limited to a specific domain.
MRDEs generalize well across different domains, but with uncertain scales which
hinders downstream applications. To this end, we aim to build up a framework to
solve scale uncertainty and transfer relative depth to metric depth. Previous
methods used language as input and estimated two factors for conducting
rescaling. Our approach, TR2M, utilizes both text description and image as
inputs and estimates two rescale maps to transfer relative depth to metric
depth at pixel level. Features from two modalities are fused with a
cross-modality attention module to better capture scale information. A strategy
is designed to construct and filter confident pseudo metric depth for more
comprehensive supervision. We also develop scale-oriented contrastive learning
to utilize depth distribution as guidance to enforce the model learning about
intrinsic knowledge aligning with the scale distribution. TR2M only exploits a
small number of trainable parameters to train on datasets in various domains
and experiments not only demonstrate TR2M's great performance in seen datasets
but also reveal superior zero-shot capabilities on five unseen datasets. We
show the huge potential in pixel-wise transferring relative depth to metric
depth with language assistance. (Code is available at:
https://github.com/BeileiCui/TR2M)