ChatPaper.aiChatPaper

StereoAdapter: Stereo-diepteschatting aanpassen aan onderwaterscènes

StereoAdapter: Adapting Stereo Depth Estimation to Underwater Scenes

September 19, 2025
Auteurs: Zhengri Wu, Yiran Wang, Yu Wen, Zeyu Zhang, Biao Wu, Hao Tang
cs.AI

Samenvatting

Onderwater stereo-diepteschatting biedt nauwkeurige 3D-geometrie voor robotica-taken zoals navigatie, inspectie en mapping, en levert metrische diepte op met behulp van goedkope passieve camera's, terwijl de schaalambiguïteit van monoculaire methoden wordt vermeden. Bestaande benaderingen worden echter geconfronteerd met twee kritieke uitdagingen: (i) het parameter-efficiënt aanpassen van grote vision foundation-encoders aan het onderwaterdomein zonder uitgebreide gelabelde data, en (ii) het nauwkeurig integreren van globaal coherente maar schaal-ambigue monoculaire prioriteiten met lokaal metrische maar fotometrisch kwetsbare stereo-correspondenties. Om deze uitdagingen aan te pakken, stellen we StereoAdapter voor, een parameter-efficiënt zelfgesuperviseerd raamwerk dat een LoRA-aangepaste monoculaire foundation-encoder combineert met een recurrent stereo-verfijningsmodule. We introduceren verder dynamische LoRA-aanpassing voor efficiënte rangselectie en pre-training op de synthetische UW-StereoDepth-40K dataset om de robuustheid onder diverse onderwateromstandigheden te verbeteren. Uitgebreide evaluaties op zowel gesimuleerde als real-world benchmarks tonen verbeteringen van 6,11% op TartanAir en 5,12% op SQUID in vergelijking met state-of-the-art methoden, terwijl real-world implementatie met de BlueROV2-robot de consistente robuustheid van onze aanpak verder aantoont. Code: https://github.com/AIGeeksGroup/StereoAdapter. Website: https://aigeeksgroup.github.io/StereoAdapter.
English
Underwater stereo depth estimation provides accurate 3D geometry for robotics tasks such as navigation, inspection, and mapping, offering metric depth from low-cost passive cameras while avoiding the scale ambiguity of monocular methods. However, existing approaches face two critical challenges: (i) parameter-efficiently adapting large vision foundation encoders to the underwater domain without extensive labeled data, and (ii) tightly fusing globally coherent but scale-ambiguous monocular priors with locally metric yet photometrically fragile stereo correspondences. To address these challenges, we propose StereoAdapter, a parameter-efficient self-supervised framework that integrates a LoRA-adapted monocular foundation encoder with a recurrent stereo refinement module. We further introduce dynamic LoRA adaptation for efficient rank selection and pre-training on the synthetic UW-StereoDepth-40K dataset to enhance robustness under diverse underwater conditions. Comprehensive evaluations on both simulated and real-world benchmarks show improvements of 6.11% on TartanAir and 5.12% on SQUID compared to state-of-the-art methods, while real-world deployment with the BlueROV2 robot further demonstrates the consistent robustness of our approach. Code: https://github.com/AIGeeksGroup/StereoAdapter. Website: https://aigeeksgroup.github.io/StereoAdapter.
PDF22September 23, 2025