BRIDGE - Moteur de Génération de Données Profondeur-Image par Apprentissage par Renforcement pour l'Estimation de Profondeur Monoculaire
BRIDGE - Building Reinforcement-Learning Depth-to-Image Data Generation Engine for Monocular Depth Estimation
September 29, 2025
papers.authors: Dingning Liu, Haoyu Guo, Jingyi Zhou, Tong He
cs.AI
papers.abstract
L'estimation de profondeur monoculaire (Monocular Depth Estimation, MDE) est une tâche fondamentale en vision par ordinateur. Les méthodes traditionnelles sont limitées par la rareté et la qualité des données, ce qui affecte leur robustesse. Pour surmonter cela, nous proposons BRIDGE, un framework de génération d'images à partir de profondeur (Depth-to-Image, D2I) optimisé par apprentissage par renforcement (RL), qui synthétise plus de 20 millions d'images RGB réalistes et géométriquement précises, chacune intrinsèquement associée à sa profondeur de référence, à partir de cartes de profondeur sources variées. Nous entraînons ensuite notre modèle d'estimation de profondeur sur cet ensemble de données, en utilisant une stratégie de supervision hybride qui intègre des pseudo-labels issus d'un modèle enseignant avec les profondeurs de référence pour un entraînement complet et robuste. Ce paradigme innovant de génération de données et d'entraînement permet à BRIDGE de réaliser des avancées en termes d'échelle et de diversité de domaines, surpassant systématiquement les approches de pointe existantes sur le plan quantitatif et dans la capture de détails de scènes complexes, favorisant ainsi l'apprentissage de caractéristiques de profondeur générales et robustes. Le code et les modèles sont disponibles à l'adresse https://dingning-liu.github.io/bridge.github.io/.
English
Monocular Depth Estimation (MDE) is a foundational task for computer vision.
Traditional methods are limited by data scarcity and quality, hindering their
robustness. To overcome this, we propose BRIDGE, an RL-optimized depth-to-image
(D2I) generation framework that synthesizes over 20M realistic and
geometrically accurate RGB images, each intrinsically paired with its ground
truth depth, from diverse source depth maps. Then we train our depth estimation
model on this dataset, employing a hybrid supervision strategy that integrates
teacher pseudo-labels with ground truth depth for comprehensive and robust
training. This innovative data generation and training paradigm enables BRIDGE
to achieve breakthroughs in scale and domain diversity, consistently
outperforming existing state-of-the-art approaches quantitatively and in
complex scene detail capture, thereby fostering general and robust depth
features. Code and models are available at
https://dingning-liu.github.io/bridge.github.io/.