BRIDGE - Motor de Geração de Dados de Profundidade para Imagem Baseado em Aprendizado por Reforço para Estimativa de Profundidade Monocular
BRIDGE - Building Reinforcement-Learning Depth-to-Image Data Generation Engine for Monocular Depth Estimation
September 29, 2025
Autores: Dingning Liu, Haoyu Guo, Jingyi Zhou, Tong He
cs.AI
Resumo
A Estimação de Profundidade Monocular (MDE) é uma tarefa fundamental para a visão computacional.
Métodos tradicionais são limitados pela escassez e qualidade dos dados, prejudicando sua robustez.
Para superar isso, propomos o BRIDGE, um framework de geração de imagem a partir de profundidade (D2I) otimizado por RL que sintetiza mais de 20 milhões de imagens RGB realistas e geometricamente precisas, cada uma intrinsecamente pareada com sua profundidade de referência, a partir de mapas de profundidade diversos.
Em seguida, treinamos nosso modelo de estimação de profundidade nesse conjunto de dados, empregando uma estratégia de supervisão híbrida que integra pseudo-rótulos de um modelo professor com a profundidade de referência para um treinamento abrangente e robusto.
Esse paradigma inovador de geração de dados e treinamento permite que o BRIDGE alcance avanços em escala e diversidade de domínio, superando consistentemente as abordagens state-of-the-art existentes tanto quantitativamente quanto na captura de detalhes de cenas complexas, promovendo assim características de profundidade gerais e robustas.
O código e os modelos estão disponíveis em https://dingning-liu.github.io/bridge.github.io/.
English
Monocular Depth Estimation (MDE) is a foundational task for computer vision.
Traditional methods are limited by data scarcity and quality, hindering their
robustness. To overcome this, we propose BRIDGE, an RL-optimized depth-to-image
(D2I) generation framework that synthesizes over 20M realistic and
geometrically accurate RGB images, each intrinsically paired with its ground
truth depth, from diverse source depth maps. Then we train our depth estimation
model on this dataset, employing a hybrid supervision strategy that integrates
teacher pseudo-labels with ground truth depth for comprehensive and robust
training. This innovative data generation and training paradigm enables BRIDGE
to achieve breakthroughs in scale and domain diversity, consistently
outperforming existing state-of-the-art approaches quantitatively and in
complex scene detail capture, thereby fostering general and robust depth
features. Code and models are available at
https://dingning-liu.github.io/bridge.github.io/.