StereoAdapter: Stereo-diepteschatting aanpassen aan onderwaterscènes
StereoAdapter: Adapting Stereo Depth Estimation to Underwater Scenes
September 19, 2025
Auteurs: Zhengri Wu, Yiran Wang, Yu Wen, Zeyu Zhang, Biao Wu, Hao Tang
cs.AI
Samenvatting
Onderwater stereo-diepteschatting biedt nauwkeurige 3D-geometrie voor robotica-taken zoals navigatie, inspectie en mapping, en levert metrische diepte op met behulp van goedkope passieve camera's, terwijl de schaalambiguïteit van monoculaire methoden wordt vermeden. Bestaande benaderingen worden echter geconfronteerd met twee kritieke uitdagingen: (i) het parameter-efficiënt aanpassen van grote vision foundation-encoders aan het onderwaterdomein zonder uitgebreide gelabelde data, en (ii) het nauwkeurig integreren van globaal coherente maar schaal-ambigue monoculaire prioriteiten met lokaal metrische maar fotometrisch kwetsbare stereo-correspondenties. Om deze uitdagingen aan te pakken, stellen we StereoAdapter voor, een parameter-efficiënt zelfgesuperviseerd raamwerk dat een LoRA-aangepaste monoculaire foundation-encoder combineert met een recurrent stereo-verfijningsmodule. We introduceren verder dynamische LoRA-aanpassing voor efficiënte rangselectie en pre-training op de synthetische UW-StereoDepth-40K dataset om de robuustheid onder diverse onderwateromstandigheden te verbeteren. Uitgebreide evaluaties op zowel gesimuleerde als real-world benchmarks tonen verbeteringen van 6,11% op TartanAir en 5,12% op SQUID in vergelijking met state-of-the-art methoden, terwijl real-world implementatie met de BlueROV2-robot de consistente robuustheid van onze aanpak verder aantoont. Code: https://github.com/AIGeeksGroup/StereoAdapter. Website: https://aigeeksgroup.github.io/StereoAdapter.
English
Underwater stereo depth estimation provides accurate 3D geometry for robotics
tasks such as navigation, inspection, and mapping, offering metric depth from
low-cost passive cameras while avoiding the scale ambiguity of monocular
methods. However, existing approaches face two critical challenges: (i)
parameter-efficiently adapting large vision foundation encoders to the
underwater domain without extensive labeled data, and (ii) tightly fusing
globally coherent but scale-ambiguous monocular priors with locally metric yet
photometrically fragile stereo correspondences. To address these challenges, we
propose StereoAdapter, a parameter-efficient self-supervised framework that
integrates a LoRA-adapted monocular foundation encoder with a recurrent stereo
refinement module. We further introduce dynamic LoRA adaptation for efficient
rank selection and pre-training on the synthetic UW-StereoDepth-40K dataset to
enhance robustness under diverse underwater conditions. Comprehensive
evaluations on both simulated and real-world benchmarks show improvements of
6.11% on TartanAir and 5.12% on SQUID compared to state-of-the-art methods,
while real-world deployment with the BlueROV2 robot further demonstrates the
consistent robustness of our approach. Code:
https://github.com/AIGeeksGroup/StereoAdapter. Website:
https://aigeeksgroup.github.io/StereoAdapter.