ChatPaper.aiChatPaper

BRIDGE - Bouwmotor voor Reinforcement-Learning Diepte-naar-Beeld Datageneratie voor Monoculaire Diepteschatting

BRIDGE - Building Reinforcement-Learning Depth-to-Image Data Generation Engine for Monocular Depth Estimation

September 29, 2025
Auteurs: Dingning Liu, Haoyu Guo, Jingyi Zhou, Tong He
cs.AI

Samenvatting

Monoculaire Diepte Schatting (MDE) is een fundamentele taak binnen computervisie. Traditionele methoden worden beperkt door schaarste en kwaliteit van data, wat hun robuustheid belemmert. Om dit te overwinnen, stellen we BRIDGE voor, een RL-geoptimaliseerd diepte-naar-beeld (D2I) generatiekader dat meer dan 20M realistische en geometrisch nauwkeurige RGB-beelden synthetiseert, elk intrinsiek gekoppeld aan zijn grondwaarheid diepte, vanuit diverse bron dieptekaarten. Vervolgens trainen we ons diepteschattingsmodel op deze dataset, waarbij we een hybride supervisiestrategie toepassen die leraar pseudo-labels integreert met grondwaarheid diepte voor uitgebreide en robuuste training. Dit innovatieve data generatie- en trainingsparadigma stelt BRIDGE in staat om doorbraken te bereiken in schaal en domeindiversiteit, waarbij het consistent beter presteert dan bestaande state-of-the-art benaderingen, zowel kwantitatief als in het vastleggen van complexe scènedetails, waardoor algemene en robuuste dieptekenmerken worden bevorderd. Code en modellen zijn beschikbaar op https://dingning-liu.github.io/bridge.github.io/.
English
Monocular Depth Estimation (MDE) is a foundational task for computer vision. Traditional methods are limited by data scarcity and quality, hindering their robustness. To overcome this, we propose BRIDGE, an RL-optimized depth-to-image (D2I) generation framework that synthesizes over 20M realistic and geometrically accurate RGB images, each intrinsically paired with its ground truth depth, from diverse source depth maps. Then we train our depth estimation model on this dataset, employing a hybrid supervision strategy that integrates teacher pseudo-labels with ground truth depth for comprehensive and robust training. This innovative data generation and training paradigm enables BRIDGE to achieve breakthroughs in scale and domain diversity, consistently outperforming existing state-of-the-art approaches quantitatively and in complex scene detail capture, thereby fostering general and robust depth features. Code and models are available at https://dingning-liu.github.io/bridge.github.io/.
PDF141September 30, 2025