ChatPaper.aiChatPaper

BRIDGE - Генерация данных для оценки монохромной глубины с использованием обучения с подкреплением и преобразования глубины в изображение

BRIDGE - Building Reinforcement-Learning Depth-to-Image Data Generation Engine for Monocular Depth Estimation

September 29, 2025
Авторы: Dingning Liu, Haoyu Guo, Jingyi Zhou, Tong He
cs.AI

Аннотация

Монокулярное оценивание глубины (MDE) является фундаментальной задачей компьютерного зрения. Традиционные методы ограничены недостатком данных и их качеством, что снижает их устойчивость. Для преодоления этих ограничений мы предлагаем BRIDGE — оптимизированную с помощью обучения с подкреплением (RL) структуру генерации изображений из данных о глубине (D2I), которая синтезирует более 20 миллионов реалистичных и геометрически точных RGB-изображений, каждое из которых внутренне связано с соответствующей истинной картой глубины, на основе разнообразных исходных карт глубины. Затем мы обучаем нашу модель оценивания глубины на этом наборе данных, используя гибридную стратегию обучения, которая объединяет псевдо-метки от учителя с истинными данными о глубине для всестороннего и устойчивого обучения. Эта инновационная парадигма генерации данных и обучения позволяет BRIDGE достичь прорывов в масштабе и разнообразии доменов, стабильно превосходя существующие передовые подходы как количественно, так и в захвате деталей сложных сцен, способствуя формированию общих и устойчивых признаков глубины. Код и модели доступны по адресу https://dingning-liu.github.io/bridge.github.io/.
English
Monocular Depth Estimation (MDE) is a foundational task for computer vision. Traditional methods are limited by data scarcity and quality, hindering their robustness. To overcome this, we propose BRIDGE, an RL-optimized depth-to-image (D2I) generation framework that synthesizes over 20M realistic and geometrically accurate RGB images, each intrinsically paired with its ground truth depth, from diverse source depth maps. Then we train our depth estimation model on this dataset, employing a hybrid supervision strategy that integrates teacher pseudo-labels with ground truth depth for comprehensive and robust training. This innovative data generation and training paradigm enables BRIDGE to achieve breakthroughs in scale and domain diversity, consistently outperforming existing state-of-the-art approaches quantitatively and in complex scene detail capture, thereby fostering general and robust depth features. Code and models are available at https://dingning-liu.github.io/bridge.github.io/.
PDF131September 30, 2025