BRIDGE - Moteur de Génération de Données Profondeur-Image par Apprentissage par Renforcement pour l'Estimation de Profondeur Monoculaire

Résumé

L'estimation de profondeur monoculaire (Monocular Depth Estimation, MDE) est une tâche fondamentale en vision par ordinateur. Les méthodes traditionnelles sont limitées par la rareté et la qualité des données, ce qui affecte leur robustesse. Pour surmonter cela, nous proposons BRIDGE, un framework de génération d'images à partir de profondeur (Depth-to-Image, D2I) optimisé par apprentissage par renforcement (RL), qui synthétise plus de 20 millions d'images RGB réalistes et géométriquement précises, chacune intrinsèquement associée à sa profondeur de référence, à partir de cartes de profondeur sources variées. Nous entraînons ensuite notre modèle d'estimation de profondeur sur cet ensemble de données, en utilisant une stratégie de supervision hybride qui intègre des pseudo-labels issus d'un modèle enseignant avec les profondeurs de référence pour un entraînement complet et robuste. Ce paradigme innovant de génération de données et d'entraînement permet à BRIDGE de réaliser des avancées en termes d'échelle et de diversité de domaines, surpassant systématiquement les approches de pointe existantes sur le plan quantitatif et dans la capture de détails de scènes complexes, favorisant ainsi l'apprentissage de caractéristiques de profondeur générales et robustes. Le code et les modèles sont disponibles à l'adresse https://dingning-liu.github.io/bridge.github.io/.

English

Monocular Depth Estimation (MDE) is a foundational task for computer vision. Traditional methods are limited by data scarcity and quality, hindering their robustness. To overcome this, we propose BRIDGE, an RL-optimized depth-to-image (D2I) generation framework that synthesizes over 20M realistic and geometrically accurate RGB images, each intrinsically paired with its ground truth depth, from diverse source depth maps. Then we train our depth estimation model on this dataset, employing a hybrid supervision strategy that integrates teacher pseudo-labels with ground truth depth for comprehensive and robust training. This innovative data generation and training paradigm enables BRIDGE to achieve breakthroughs in scale and domain diversity, consistently outperforming existing state-of-the-art approaches quantitatively and in complex scene detail capture, thereby fostering general and robust depth features. Code and models are available at https://dingning-liu.github.io/bridge.github.io/.