BRIDGE - Motor de Generación de Datos de Profundidad a Imagen Basado en Aprendizaje por Refuerzo para la Estimación de Profundidad Monocular

Resumen

La Estimación de Profundidad Monocular (MDE, por sus siglas en inglés) es una tarea fundamental en el campo de la visión por computadora. Los métodos tradicionales se ven limitados por la escasez y calidad de los datos, lo que dificulta su robustez. Para superar esto, proponemos BRIDGE, un marco de generación de profundidad a imagen (D2I, por sus siglas en inglés) optimizado con aprendizaje por refuerzo (RL, por sus siglas en inglés) que sintetiza más de 20 millones de imágenes RGB realistas y geométricamente precisas, cada una intrínsecamente emparejada con su profundidad de referencia, a partir de mapas de profundidad de diversas fuentes. Luego, entrenamos nuestro modelo de estimación de profundidad en este conjunto de datos, empleando una estrategia de supervisión híbrida que integra pseudoetiquetas generadas por un modelo maestro con la profundidad de referencia para un entrenamiento completo y robusto. Este paradigma innovador de generación de datos y entrenamiento permite a BRIDGE lograr avances en escala y diversidad de dominios, superando consistentemente los enfoques más avanzados existentes tanto cuantitativamente como en la captura de detalles en escenas complejas, fomentando así características de profundidad generales y robustas. El código y los modelos están disponibles en https://dingning-liu.github.io/bridge.github.io/.

English

Monocular Depth Estimation (MDE) is a foundational task for computer vision. Traditional methods are limited by data scarcity and quality, hindering their robustness. To overcome this, we propose BRIDGE, an RL-optimized depth-to-image (D2I) generation framework that synthesizes over 20M realistic and geometrically accurate RGB images, each intrinsically paired with its ground truth depth, from diverse source depth maps. Then we train our depth estimation model on this dataset, employing a hybrid supervision strategy that integrates teacher pseudo-labels with ground truth depth for comprehensive and robust training. This innovative data generation and training paradigm enables BRIDGE to achieve breakthroughs in scale and domain diversity, consistently outperforming existing state-of-the-art approaches quantitatively and in complex scene detail capture, thereby fostering general and robust depth features. Code and models are available at https://dingning-liu.github.io/bridge.github.io/.