TR2M: Преобразование монокулярной относительной глубины в метрическую с использованием языковых описаний и контраста, ориентированного на масштаб
TR2M: Transferring Monocular Relative Depth to Metric Depth with Language Descriptions and Scale-Oriented Contrast
June 16, 2025
Авторы: Beilei Cui, Yiming Huang, Long Bai, Hongliang Ren
cs.AI
Аннотация
В данной работе представлен универсальный фреймворк для преобразования относительной глубины в метрическую. Современные методы оценки глубины по одному изображению в основном делятся на оценку метрической глубины (MMDE) и оценку относительной глубины (MRDE). MMDE оценивают глубину в метрическом масштабе, но часто ограничены конкретной областью применения. MRDE хорошо обобщаются на различные области, но имеют неопределённый масштаб, что затрудняет их использование в прикладных задачах. В связи с этим мы стремимся создать фреймворк для устранения неопределённости масштаба и преобразования относительной глубины в метрическую. Предыдущие методы использовали текстовые данные в качестве входных и оценивали два фактора для выполнения перемасштабирования. Наш подход, TR2M, использует как текстовое описание, так и изображение в качестве входных данных и оценивает две карты перемасштабирования для преобразования относительной глубины в метрическую на уровне пикселей. Особенности из двух модальностей объединяются с помощью кросс-модального модуля внимания для более точного захвата информации о масштабе. Разработана стратегия для создания и фильтрации уверенных псевдо-метрических глубин с целью более полного контроля. Мы также разработали контрастное обучение, ориентированное на масштаб, чтобы использовать распределение глубины в качестве руководства для усиления изучения моделью внутренних знаний, соответствующих распределению масштаба. TR2M использует лишь небольшое количество обучаемых параметров для обучения на наборах данных из различных областей, и эксперименты не только демонстрируют отличную производительность TR2M на известных наборах данных, но и раскрывают превосходные возможности zero-shot на пяти неизвестных наборах данных. Мы показываем огромный потенциал в пиксельном преобразовании относительной глубины в метрическую с помощью языковой поддержки. (Код доступен по адресу: https://github.com/BeileiCui/TR2M)
English
This work presents a generalizable framework to transfer relative depth to
metric depth. Current monocular depth estimation methods are mainly divided
into metric depth estimation (MMDE) and relative depth estimation (MRDE). MMDEs
estimate depth in metric scale but are often limited to a specific domain.
MRDEs generalize well across different domains, but with uncertain scales which
hinders downstream applications. To this end, we aim to build up a framework to
solve scale uncertainty and transfer relative depth to metric depth. Previous
methods used language as input and estimated two factors for conducting
rescaling. Our approach, TR2M, utilizes both text description and image as
inputs and estimates two rescale maps to transfer relative depth to metric
depth at pixel level. Features from two modalities are fused with a
cross-modality attention module to better capture scale information. A strategy
is designed to construct and filter confident pseudo metric depth for more
comprehensive supervision. We also develop scale-oriented contrastive learning
to utilize depth distribution as guidance to enforce the model learning about
intrinsic knowledge aligning with the scale distribution. TR2M only exploits a
small number of trainable parameters to train on datasets in various domains
and experiments not only demonstrate TR2M's great performance in seen datasets
but also reveal superior zero-shot capabilities on five unseen datasets. We
show the huge potential in pixel-wise transferring relative depth to metric
depth with language assistance. (Code is available at:
https://github.com/BeileiCui/TR2M)