ChatPaper.aiChatPaper

BRIDGE - Motor de Geração de Dados de Profundidade para Imagem Baseado em Aprendizado por Reforço para Estimativa de Profundidade Monocular

BRIDGE - Building Reinforcement-Learning Depth-to-Image Data Generation Engine for Monocular Depth Estimation

September 29, 2025
Autores: Dingning Liu, Haoyu Guo, Jingyi Zhou, Tong He
cs.AI

Resumo

A Estimação de Profundidade Monocular (MDE) é uma tarefa fundamental para a visão computacional. Métodos tradicionais são limitados pela escassez e qualidade dos dados, prejudicando sua robustez. Para superar isso, propomos o BRIDGE, um framework de geração de imagem a partir de profundidade (D2I) otimizado por RL que sintetiza mais de 20 milhões de imagens RGB realistas e geometricamente precisas, cada uma intrinsecamente pareada com sua profundidade de referência, a partir de mapas de profundidade diversos. Em seguida, treinamos nosso modelo de estimação de profundidade nesse conjunto de dados, empregando uma estratégia de supervisão híbrida que integra pseudo-rótulos de um modelo professor com a profundidade de referência para um treinamento abrangente e robusto. Esse paradigma inovador de geração de dados e treinamento permite que o BRIDGE alcance avanços em escala e diversidade de domínio, superando consistentemente as abordagens state-of-the-art existentes tanto quantitativamente quanto na captura de detalhes de cenas complexas, promovendo assim características de profundidade gerais e robustas. O código e os modelos estão disponíveis em https://dingning-liu.github.io/bridge.github.io/.
English
Monocular Depth Estimation (MDE) is a foundational task for computer vision. Traditional methods are limited by data scarcity and quality, hindering their robustness. To overcome this, we propose BRIDGE, an RL-optimized depth-to-image (D2I) generation framework that synthesizes over 20M realistic and geometrically accurate RGB images, each intrinsically paired with its ground truth depth, from diverse source depth maps. Then we train our depth estimation model on this dataset, employing a hybrid supervision strategy that integrates teacher pseudo-labels with ground truth depth for comprehensive and robust training. This innovative data generation and training paradigm enables BRIDGE to achieve breakthroughs in scale and domain diversity, consistently outperforming existing state-of-the-art approaches quantitatively and in complex scene detail capture, thereby fostering general and robust depth features. Code and models are available at https://dingning-liu.github.io/bridge.github.io/.
PDF141September 30, 2025