ChatPaper.aiChatPaper

BRIDGE - Motore per la Generazione di Dati Depth-to-Image Basato su Apprendimento per Rinforzo per la Stima della Profondità Monoculare

BRIDGE - Building Reinforcement-Learning Depth-to-Image Data Generation Engine for Monocular Depth Estimation

September 29, 2025
Autori: Dingning Liu, Haoyu Guo, Jingyi Zhou, Tong He
cs.AI

Abstract

La stima della profondità monoculare (Monocular Depth Estimation, MDE) è un compito fondamentale per la visione artificiale. I metodi tradizionali sono limitati dalla scarsità e dalla qualità dei dati, compromettendone la robustezza. Per superare questo problema, proponiamo BRIDGE, un framework di generazione ottimizzato con reinforcement learning (RL) che trasforma la profondità in immagini (Depth-to-Image, D2I), sintetizzando oltre 20 milioni di immagini RGB realistiche e geometricamente accurate, ciascuna intrinsecamente associata alla propria profondità di riferimento, a partire da mappe di profondità provenienti da fonti diverse. Successivamente, addestriamo il nostro modello di stima della profondità su questo dataset, utilizzando una strategia di supervisione ibrida che integra etichette pseudo-derivate da un modello insegnante con la profondità di riferimento, garantendo un addestramento completo e robusto. Questo innovativo paradigma di generazione dei dati e di addestramento consente a BRIDGE di raggiungere traguardi significativi in termini di scala e diversità di dominio, superando costantemente gli approcci state-of-the-art esistenti sia quantitativamente che nella cattura di dettagli in scene complesse, promuovendo così caratteristiche di profondità generali e robuste. Codice e modelli sono disponibili all'indirizzo https://dingning-liu.github.io/bridge.github.io/.
English
Monocular Depth Estimation (MDE) is a foundational task for computer vision. Traditional methods are limited by data scarcity and quality, hindering their robustness. To overcome this, we propose BRIDGE, an RL-optimized depth-to-image (D2I) generation framework that synthesizes over 20M realistic and geometrically accurate RGB images, each intrinsically paired with its ground truth depth, from diverse source depth maps. Then we train our depth estimation model on this dataset, employing a hybrid supervision strategy that integrates teacher pseudo-labels with ground truth depth for comprehensive and robust training. This innovative data generation and training paradigm enables BRIDGE to achieve breakthroughs in scale and domain diversity, consistently outperforming existing state-of-the-art approaches quantitatively and in complex scene detail capture, thereby fostering general and robust depth features. Code and models are available at https://dingning-liu.github.io/bridge.github.io/.
PDF141September 30, 2025