StereoAdapter: Anpassung der Stereo-Tiefenschätzung an Unterwasserszenen
StereoAdapter: Adapting Stereo Depth Estimation to Underwater Scenes
September 19, 2025
papers.authors: Zhengri Wu, Yiran Wang, Yu Wen, Zeyu Zhang, Biao Wu, Hao Tang
cs.AI
papers.abstract
Die Tiefenschätzung mit Unterwasser-Stereokameras liefert präzise 3D-Geometrie für Robotikaufgaben wie Navigation, Inspektion und Kartierung und bietet metrische Tiefeninformationen aus kostengünstigen passiven Kameras, während die Skalenunschärfe monokularer Methoden vermieden wird. Bestehende Ansätze stehen jedoch vor zwei kritischen Herausforderungen: (i) die parameter-effiziente Anpassung großer Vision-Foundation-Encoder an den Unterwasserbereich ohne umfangreiche annotierte Daten und (ii) die enge Fusion global kohärenter, aber skalenunschärfer monokularer Prioritäten mit lokal metrischen, jedoch photometrisch fragilen Stereo-Korrespondenzen. Um diese Herausforderungen zu bewältigen, schlagen wir StereoAdapter vor, ein parameter-effizientes, selbstüberwachtes Framework, das einen LoRA-adaptierten monokularen Foundation-Encoder mit einem rekursiven Stereo-Verfeinerungsmodul integriert. Wir führen zudem eine dynamische LoRA-Adaption für effiziente Rangauswahl und ein Pre-Training auf dem synthetischen UW-StereoDepth-40K-Datensatz ein, um die Robustheit unter verschiedenen Unterwasserbedingungen zu verbessern. Umfassende Bewertungen auf simulierten und realen Benchmarks zeigen Verbesserungen von 6,11 % auf TartanAir und 5,12 % auf SQUID im Vergleich zu state-of-the-art Methoden, während der reale Einsatz mit dem BlueROV2-Roboter die konsistente Robustheit unseres Ansatzes weiter unterstreicht. Code: https://github.com/AIGeeksGroup/StereoAdapter. Website: https://aigeeksgroup.github.io/StereoAdapter.
English
Underwater stereo depth estimation provides accurate 3D geometry for robotics
tasks such as navigation, inspection, and mapping, offering metric depth from
low-cost passive cameras while avoiding the scale ambiguity of monocular
methods. However, existing approaches face two critical challenges: (i)
parameter-efficiently adapting large vision foundation encoders to the
underwater domain without extensive labeled data, and (ii) tightly fusing
globally coherent but scale-ambiguous monocular priors with locally metric yet
photometrically fragile stereo correspondences. To address these challenges, we
propose StereoAdapter, a parameter-efficient self-supervised framework that
integrates a LoRA-adapted monocular foundation encoder with a recurrent stereo
refinement module. We further introduce dynamic LoRA adaptation for efficient
rank selection and pre-training on the synthetic UW-StereoDepth-40K dataset to
enhance robustness under diverse underwater conditions. Comprehensive
evaluations on both simulated and real-world benchmarks show improvements of
6.11% on TartanAir and 5.12% on SQUID compared to state-of-the-art methods,
while real-world deployment with the BlueROV2 robot further demonstrates the
consistent robustness of our approach. Code:
https://github.com/AIGeeksGroup/StereoAdapter. Website:
https://aigeeksgroup.github.io/StereoAdapter.