BRIDGE - Motor de Generación de Datos de Profundidad a Imagen Basado en Aprendizaje por Refuerzo para la Estimación de Profundidad Monocular
BRIDGE - Building Reinforcement-Learning Depth-to-Image Data Generation Engine for Monocular Depth Estimation
September 29, 2025
Autores: Dingning Liu, Haoyu Guo, Jingyi Zhou, Tong He
cs.AI
Resumen
La Estimación de Profundidad Monocular (MDE, por sus siglas en inglés) es una tarea fundamental en el campo de la visión por computadora. Los métodos tradicionales se ven limitados por la escasez y calidad de los datos, lo que dificulta su robustez. Para superar esto, proponemos BRIDGE, un marco de generación de profundidad a imagen (D2I, por sus siglas en inglés) optimizado con aprendizaje por refuerzo (RL, por sus siglas en inglés) que sintetiza más de 20 millones de imágenes RGB realistas y geométricamente precisas, cada una intrínsecamente emparejada con su profundidad de referencia, a partir de mapas de profundidad de diversas fuentes. Luego, entrenamos nuestro modelo de estimación de profundidad en este conjunto de datos, empleando una estrategia de supervisión híbrida que integra pseudoetiquetas generadas por un modelo maestro con la profundidad de referencia para un entrenamiento completo y robusto. Este paradigma innovador de generación de datos y entrenamiento permite a BRIDGE lograr avances en escala y diversidad de dominios, superando consistentemente los enfoques más avanzados existentes tanto cuantitativamente como en la captura de detalles en escenas complejas, fomentando así características de profundidad generales y robustas. El código y los modelos están disponibles en https://dingning-liu.github.io/bridge.github.io/.
English
Monocular Depth Estimation (MDE) is a foundational task for computer vision.
Traditional methods are limited by data scarcity and quality, hindering their
robustness. To overcome this, we propose BRIDGE, an RL-optimized depth-to-image
(D2I) generation framework that synthesizes over 20M realistic and
geometrically accurate RGB images, each intrinsically paired with its ground
truth depth, from diverse source depth maps. Then we train our depth estimation
model on this dataset, employing a hybrid supervision strategy that integrates
teacher pseudo-labels with ground truth depth for comprehensive and robust
training. This innovative data generation and training paradigm enables BRIDGE
to achieve breakthroughs in scale and domain diversity, consistently
outperforming existing state-of-the-art approaches quantitatively and in
complex scene detail capture, thereby fostering general and robust depth
features. Code and models are available at
https://dingning-liu.github.io/bridge.github.io/.