TR2M: Übertragung monokularer relativer Tiefe auf metrische Tiefe mit Sprachbeschreibungen und skalenorientiertem Kontrast

papers.abstract

Diese Arbeit präsentiert ein generalisierbares Framework, um relative Tiefe in metrische Tiefe zu übertragen. Aktuelle Methoden zur monokularen Tiefenschätzung lassen sich hauptsächlich in metrische Tiefenschätzung (MMDE) und relative Tiefenschätzung (MRDE) unterteilen. MMDEs schätzen die Tiefe in metrischem Maßstab, sind jedoch oft auf einen spezifischen Bereich beschränkt. MRDEs generalisieren gut über verschiedene Bereiche hinweg, jedoch mit unsicheren Skalen, was nachgelagerte Anwendungen behindert. Daher zielen wir darauf ab, ein Framework zu entwickeln, das die Skalenunsicherheit löst und relative Tiefe in metrische Tiefe überträgt. Bisherige Methoden verwendeten Sprache als Eingabe und schätzten zwei Faktoren für die Neuskalierung. Unser Ansatz, TR2M, nutzt sowohl Textbeschreibungen als auch Bilder als Eingaben und schätzt zwei Neuskalierungskarten, um relative Tiefe auf Pixelebene in metrische Tiefe zu übertragen. Merkmale aus beiden Modalitäten werden mit einem Cross-Modality-Attention-Modul fusioniert, um Skaleninformationen besser zu erfassen. Eine Strategie wurde entwickelt, um vertrauenswürdige pseudo-metrische Tiefe zu konstruieren und zu filtern, um eine umfassendere Überwachung zu ermöglichen. Wir entwickeln auch skalierungsorientiertes kontrastives Lernen, um die Tiefenverteilung als Leitfaden zu nutzen und das Modell dazu zu bringen, intrinsisches Wissen zu erlernen, das mit der Skalenverteilung übereinstimmt. TR2M nutzt nur eine geringe Anzahl trainierbarer Parameter, um auf Datensätzen in verschiedenen Bereichen zu trainieren, und Experimente zeigen nicht nur die hervorragende Leistung von TR2M auf bekannten Datensätzen, sondern auch überragende Zero-Shot-Fähigkeiten auf fünf unbekannten Datensätzen. Wir zeigen das enorme Potenzial der pixelweisen Übertragung von relativer Tiefe in metrische Tiefe mit Sprachunterstützung. (Der Code ist verfügbar unter: https://github.com/BeileiCui/TR2M)

English

This work presents a generalizable framework to transfer relative depth to metric depth. Current monocular depth estimation methods are mainly divided into metric depth estimation (MMDE) and relative depth estimation (MRDE). MMDEs estimate depth in metric scale but are often limited to a specific domain. MRDEs generalize well across different domains, but with uncertain scales which hinders downstream applications. To this end, we aim to build up a framework to solve scale uncertainty and transfer relative depth to metric depth. Previous methods used language as input and estimated two factors for conducting rescaling. Our approach, TR2M, utilizes both text description and image as inputs and estimates two rescale maps to transfer relative depth to metric depth at pixel level. Features from two modalities are fused with a cross-modality attention module to better capture scale information. A strategy is designed to construct and filter confident pseudo metric depth for more comprehensive supervision. We also develop scale-oriented contrastive learning to utilize depth distribution as guidance to enforce the model learning about intrinsic knowledge aligning with the scale distribution. TR2M only exploits a small number of trainable parameters to train on datasets in various domains and experiments not only demonstrate TR2M's great performance in seen datasets but also reveal superior zero-shot capabilities on five unseen datasets. We show the huge potential in pixel-wise transferring relative depth to metric depth with language assistance. (Code is available at: https://github.com/BeileiCui/TR2M)

TR2M: Übertragung monokularer relativer Tiefe auf metrische Tiefe mit Sprachbeschreibungen und skalenorientiertem Kontrast

TR2M: Transferring Monocular Relative Depth to Metric Depth with Language Descriptions and Scale-Oriented Contrast

papers.abstract

Support