StereoAdapter: Адаптация оценки глубины по стереоизображениям для подводных сцен
StereoAdapter: Adapting Stereo Depth Estimation to Underwater Scenes
September 19, 2025
Авторы: Zhengri Wu, Yiran Wang, Yu Wen, Zeyu Zhang, Biao Wu, Hao Tang
cs.AI
Аннотация
Оценка глубины с использованием подводного стереозрения обеспечивает точную 3D-геометрию для задач робототехники, таких как навигация, инспекция и картографирование, предоставляя метрическую глубину с помощью недорогих пассивных камер, избегая при этом проблемы масштабной неопределённости, характерной для монокулярных методов. Однако существующие подходы сталкиваются с двумя ключевыми проблемами: (i) эффективная адаптация крупных базовых кодировщиков компьютерного зрения к подводной среде без необходимости в обширных размеченных данных и (ii) тесное объединение глобально согласованных, но масштабно неопределённых монокулярных априорных данных с локально метрическими, но фотометрически уязвимыми стерео соответствиями. Для решения этих задач мы предлагаем StereoAdapter — параметрически эффективную самообучаемую архитектуру, которая интегрирует монокулярный базовый кодировщик, адаптированный с помощью LoRA, с рекуррентным модулем уточнения стерео. Мы также вводим динамическую адаптацию LoRA для эффективного выбора ранга и предварительного обучения на синтетическом наборе данных UW-StereoDepth-40K для повышения устойчивости в различных подводных условиях. Комплексные оценки на симулированных и реальных тестовых наборах показывают улучшения на 6,11% на TartanAir и 5,12% на SQUID по сравнению с современными методами, а реальное развёртывание на роботе BlueROV2 дополнительно демонстрирует стабильную устойчивость нашего подхода. Код: https://github.com/AIGeeksGroup/StereoAdapter. Сайт: https://aigeeksgroup.github.io/StereoAdapter.
English
Underwater stereo depth estimation provides accurate 3D geometry for robotics
tasks such as navigation, inspection, and mapping, offering metric depth from
low-cost passive cameras while avoiding the scale ambiguity of monocular
methods. However, existing approaches face two critical challenges: (i)
parameter-efficiently adapting large vision foundation encoders to the
underwater domain without extensive labeled data, and (ii) tightly fusing
globally coherent but scale-ambiguous monocular priors with locally metric yet
photometrically fragile stereo correspondences. To address these challenges, we
propose StereoAdapter, a parameter-efficient self-supervised framework that
integrates a LoRA-adapted monocular foundation encoder with a recurrent stereo
refinement module. We further introduce dynamic LoRA adaptation for efficient
rank selection and pre-training on the synthetic UW-StereoDepth-40K dataset to
enhance robustness under diverse underwater conditions. Comprehensive
evaluations on both simulated and real-world benchmarks show improvements of
6.11% on TartanAir and 5.12% on SQUID compared to state-of-the-art methods,
while real-world deployment with the BlueROV2 robot further demonstrates the
consistent robustness of our approach. Code:
https://github.com/AIGeeksGroup/StereoAdapter. Website:
https://aigeeksgroup.github.io/StereoAdapter.