BRIDGE - Motore per la Generazione di Dati Depth-to-Image Basato su Apprendimento per Rinforzo per la Stima della Profondità Monoculare
BRIDGE - Building Reinforcement-Learning Depth-to-Image Data Generation Engine for Monocular Depth Estimation
September 29, 2025
Autori: Dingning Liu, Haoyu Guo, Jingyi Zhou, Tong He
cs.AI
Abstract
La stima della profondità monoculare (Monocular Depth Estimation, MDE) è un compito fondamentale per la visione artificiale. I metodi tradizionali sono limitati dalla scarsità e dalla qualità dei dati, compromettendone la robustezza. Per superare questo problema, proponiamo BRIDGE, un framework di generazione ottimizzato con reinforcement learning (RL) che trasforma la profondità in immagini (Depth-to-Image, D2I), sintetizzando oltre 20 milioni di immagini RGB realistiche e geometricamente accurate, ciascuna intrinsecamente associata alla propria profondità di riferimento, a partire da mappe di profondità provenienti da fonti diverse. Successivamente, addestriamo il nostro modello di stima della profondità su questo dataset, utilizzando una strategia di supervisione ibrida che integra etichette pseudo-derivate da un modello insegnante con la profondità di riferimento, garantendo un addestramento completo e robusto. Questo innovativo paradigma di generazione dei dati e di addestramento consente a BRIDGE di raggiungere traguardi significativi in termini di scala e diversità di dominio, superando costantemente gli approcci state-of-the-art esistenti sia quantitativamente che nella cattura di dettagli in scene complesse, promuovendo così caratteristiche di profondità generali e robuste. Codice e modelli sono disponibili all'indirizzo https://dingning-liu.github.io/bridge.github.io/.
English
Monocular Depth Estimation (MDE) is a foundational task for computer vision.
Traditional methods are limited by data scarcity and quality, hindering their
robustness. To overcome this, we propose BRIDGE, an RL-optimized depth-to-image
(D2I) generation framework that synthesizes over 20M realistic and
geometrically accurate RGB images, each intrinsically paired with its ground
truth depth, from diverse source depth maps. Then we train our depth estimation
model on this dataset, employing a hybrid supervision strategy that integrates
teacher pseudo-labels with ground truth depth for comprehensive and robust
training. This innovative data generation and training paradigm enables BRIDGE
to achieve breakthroughs in scale and domain diversity, consistently
outperforming existing state-of-the-art approaches quantitatively and in
complex scene detail capture, thereby fostering general and robust depth
features. Code and models are available at
https://dingning-liu.github.io/bridge.github.io/.