StereoAdapter: Adattamento della stima della profondità stereo alle scene subacquee
StereoAdapter: Adapting Stereo Depth Estimation to Underwater Scenes
September 19, 2025
Autori: Zhengri Wu, Yiran Wang, Yu Wen, Zeyu Zhang, Biao Wu, Hao Tang
cs.AI
Abstract
La stima della profondità stereo subacquea fornisce una geometria 3D accurata per attività robotiche come navigazione, ispezione e mappatura, offrendo una profondità metrica da telecamere passive a basso costo evitando l'ambiguità di scala dei metodi monoculari. Tuttavia, gli approcci esistenti affrontano due sfide critiche: (i) adattare in modo efficiente dal punto di vista parametrico grandi encoder di fondazione visiva al dominio subacqueo senza l'uso di dati etichettati estensivi, e (ii) fondere in modo stretto prior monoculari globalmente coerenti ma ambigui nella scala con corrispondenze stereo localmente metriche ma fotometricamente fragili. Per affrontare queste sfide, proponiamo StereoAdapter, un framework auto-supervisionato efficiente dal punto di vista parametrico che integra un encoder di fondazione monoculare adattato con LoRA con un modulo ricorrente di raffinamento stereo. Introduciamo inoltre un adattamento dinamico LoRA per una selezione efficiente del rango e un pre-addestramento sul dataset sintetico UW-StereoDepth-40K per migliorare la robustezza in diverse condizioni subacquee. Valutazioni complete su benchmark sia simulati che del mondo reale mostrano miglioramenti del 6,11% su TartanAir e del 5,12% su SQUID rispetto ai metodi all'avanguardia, mentre il dispiegamento nel mondo reale con il robot BlueROV2 dimostra ulteriormente la robustezza costante del nostro approccio. Codice: https://github.com/AIGeeksGroup/StereoAdapter. Sito web: https://aigeeksgroup.github.io/StereoAdapter.
English
Underwater stereo depth estimation provides accurate 3D geometry for robotics
tasks such as navigation, inspection, and mapping, offering metric depth from
low-cost passive cameras while avoiding the scale ambiguity of monocular
methods. However, existing approaches face two critical challenges: (i)
parameter-efficiently adapting large vision foundation encoders to the
underwater domain without extensive labeled data, and (ii) tightly fusing
globally coherent but scale-ambiguous monocular priors with locally metric yet
photometrically fragile stereo correspondences. To address these challenges, we
propose StereoAdapter, a parameter-efficient self-supervised framework that
integrates a LoRA-adapted monocular foundation encoder with a recurrent stereo
refinement module. We further introduce dynamic LoRA adaptation for efficient
rank selection and pre-training on the synthetic UW-StereoDepth-40K dataset to
enhance robustness under diverse underwater conditions. Comprehensive
evaluations on both simulated and real-world benchmarks show improvements of
6.11% on TartanAir and 5.12% on SQUID compared to state-of-the-art methods,
while real-world deployment with the BlueROV2 robot further demonstrates the
consistent robustness of our approach. Code:
https://github.com/AIGeeksGroup/StereoAdapter. Website:
https://aigeeksgroup.github.io/StereoAdapter.