BRIDGE – Building Reinforcement-Learning Depth-to-Image Data Generation Engine für monokulare Tiefenschätzung
BRIDGE - Building Reinforcement-Learning Depth-to-Image Data Generation Engine for Monocular Depth Estimation
September 29, 2025
papers.authors: Dingning Liu, Haoyu Guo, Jingyi Zhou, Tong He
cs.AI
papers.abstract
Monokulare Tiefenschätzung (MDE) ist eine grundlegende Aufgabe in der Computer Vision. Traditionelle Methoden sind durch Datenknappheit und -qualität eingeschränkt, was ihre Robustheit beeinträchtigt. Um dies zu überwinden, schlagen wir BRIDGE vor, ein RL-optimiertes Tiefen-zu-Bild (D2I)-Generierungsframework, das über 20M realistische und geometrisch präzise RGB-Bilder synthetisiert, die jeweils intrinsisch mit ihrer Ground-Truth-Tiefe gepaart sind, aus diversen Quell-Tiefenkarten. Anschließend trainieren wir unser Tiefenschätzungsmodell auf diesem Datensatz unter Verwendung einer hybriden Überwachungsstrategie, die Lehrer-Pseudo-Labels mit Ground-Truth-Tiefe für umfassendes und robustes Training integriert. Dieses innovative Daten-Generierungs- und Trainingsparadigma ermöglicht es BRIDGE, Durchbrüche in Bezug auf Skalierbarkeit und Domänenvielfalt zu erzielen, wobei es bestehende state-of-the-art Ansätze quantitativ und in der Erfassung komplexer Szenendetails konsequent übertrifft, wodurch allgemeine und robuste Tiefenmerkmale gefördert werden. Code und Modelle sind verfügbar unter https://dingning-liu.github.io/bridge.github.io/.
English
Monocular Depth Estimation (MDE) is a foundational task for computer vision.
Traditional methods are limited by data scarcity and quality, hindering their
robustness. To overcome this, we propose BRIDGE, an RL-optimized depth-to-image
(D2I) generation framework that synthesizes over 20M realistic and
geometrically accurate RGB images, each intrinsically paired with its ground
truth depth, from diverse source depth maps. Then we train our depth estimation
model on this dataset, employing a hybrid supervision strategy that integrates
teacher pseudo-labels with ground truth depth for comprehensive and robust
training. This innovative data generation and training paradigm enables BRIDGE
to achieve breakthroughs in scale and domain diversity, consistently
outperforming existing state-of-the-art approaches quantitatively and in
complex scene detail capture, thereby fostering general and robust depth
features. Code and models are available at
https://dingning-liu.github.io/bridge.github.io/.