StereoAdapter : Adaptation de l'estimation de profondeur stéréo aux scènes sous-marines
StereoAdapter: Adapting Stereo Depth Estimation to Underwater Scenes
September 19, 2025
papers.authors: Zhengri Wu, Yiran Wang, Yu Wen, Zeyu Zhang, Biao Wu, Hao Tang
cs.AI
papers.abstract
L'estimation de profondeur stéréo sous-marine fournit une géométrie 3D précise pour les tâches robotiques telles que la navigation, l'inspection et la cartographie, offrant une profondeur métrique à partir de caméras passives à faible coût tout en évitant l'ambiguïté d'échelle des méthodes monoculaires. Cependant, les approches existantes rencontrent deux défis majeurs : (i) adapter de manière paramétriquement efficace les grands encodeurs de fondation visuelle au domaine sous-marin sans nécessiter de données étiquetées extensives, et (ii) fusionner étroitement des préalables monoculaires globalement cohérents mais ambigus en échelle avec des correspondances stéréo localement métriques mais photométriquement fragiles. Pour relever ces défis, nous proposons StereoAdapter, un cadre auto-supervisé à efficacité paramétrique qui intègre un encodeur de fondation monoculaire adapté par LoRA avec un module de raffinement stéréo récurrent. Nous introduisons également une adaptation LoRA dynamique pour une sélection de rang efficace et un pré-entraînement sur le jeu de données synthétique UW-StereoDepth-40K afin d'améliorer la robustesse dans diverses conditions sous-marines. Des évaluations complètes sur des benchmarks simulés et réels montrent des améliorations de 6,11 % sur TartanAir et de 5,12 % sur SQUID par rapport aux méthodes de pointe, tandis que le déploiement réel avec le robot BlueROV2 démontre la robustesse constante de notre approche. Code : https://github.com/AIGeeksGroup/StereoAdapter. Site web : https://aigeeksgroup.github.io/StereoAdapter.
English
Underwater stereo depth estimation provides accurate 3D geometry for robotics
tasks such as navigation, inspection, and mapping, offering metric depth from
low-cost passive cameras while avoiding the scale ambiguity of monocular
methods. However, existing approaches face two critical challenges: (i)
parameter-efficiently adapting large vision foundation encoders to the
underwater domain without extensive labeled data, and (ii) tightly fusing
globally coherent but scale-ambiguous monocular priors with locally metric yet
photometrically fragile stereo correspondences. To address these challenges, we
propose StereoAdapter, a parameter-efficient self-supervised framework that
integrates a LoRA-adapted monocular foundation encoder with a recurrent stereo
refinement module. We further introduce dynamic LoRA adaptation for efficient
rank selection and pre-training on the synthetic UW-StereoDepth-40K dataset to
enhance robustness under diverse underwater conditions. Comprehensive
evaluations on both simulated and real-world benchmarks show improvements of
6.11% on TartanAir and 5.12% on SQUID compared to state-of-the-art methods,
while real-world deployment with the BlueROV2 robot further demonstrates the
consistent robustness of our approach. Code:
https://github.com/AIGeeksGroup/StereoAdapter. Website:
https://aigeeksgroup.github.io/StereoAdapter.