ChatPaper.aiChatPaper

StereoAdapter: Адаптация оценки глубины по стереоизображениям для подводных сцен

StereoAdapter: Adapting Stereo Depth Estimation to Underwater Scenes

September 19, 2025
Авторы: Zhengri Wu, Yiran Wang, Yu Wen, Zeyu Zhang, Biao Wu, Hao Tang
cs.AI

Аннотация

Оценка глубины с использованием подводного стереозрения обеспечивает точную 3D-геометрию для задач робототехники, таких как навигация, инспекция и картографирование, предоставляя метрическую глубину с помощью недорогих пассивных камер, избегая при этом проблемы масштабной неопределённости, характерной для монокулярных методов. Однако существующие подходы сталкиваются с двумя ключевыми проблемами: (i) эффективная адаптация крупных базовых кодировщиков компьютерного зрения к подводной среде без необходимости в обширных размеченных данных и (ii) тесное объединение глобально согласованных, но масштабно неопределённых монокулярных априорных данных с локально метрическими, но фотометрически уязвимыми стерео соответствиями. Для решения этих задач мы предлагаем StereoAdapter — параметрически эффективную самообучаемую архитектуру, которая интегрирует монокулярный базовый кодировщик, адаптированный с помощью LoRA, с рекуррентным модулем уточнения стерео. Мы также вводим динамическую адаптацию LoRA для эффективного выбора ранга и предварительного обучения на синтетическом наборе данных UW-StereoDepth-40K для повышения устойчивости в различных подводных условиях. Комплексные оценки на симулированных и реальных тестовых наборах показывают улучшения на 6,11% на TartanAir и 5,12% на SQUID по сравнению с современными методами, а реальное развёртывание на роботе BlueROV2 дополнительно демонстрирует стабильную устойчивость нашего подхода. Код: https://github.com/AIGeeksGroup/StereoAdapter. Сайт: https://aigeeksgroup.github.io/StereoAdapter.
English
Underwater stereo depth estimation provides accurate 3D geometry for robotics tasks such as navigation, inspection, and mapping, offering metric depth from low-cost passive cameras while avoiding the scale ambiguity of monocular methods. However, existing approaches face two critical challenges: (i) parameter-efficiently adapting large vision foundation encoders to the underwater domain without extensive labeled data, and (ii) tightly fusing globally coherent but scale-ambiguous monocular priors with locally metric yet photometrically fragile stereo correspondences. To address these challenges, we propose StereoAdapter, a parameter-efficient self-supervised framework that integrates a LoRA-adapted monocular foundation encoder with a recurrent stereo refinement module. We further introduce dynamic LoRA adaptation for efficient rank selection and pre-training on the synthetic UW-StereoDepth-40K dataset to enhance robustness under diverse underwater conditions. Comprehensive evaluations on both simulated and real-world benchmarks show improvements of 6.11% on TartanAir and 5.12% on SQUID compared to state-of-the-art methods, while real-world deployment with the BlueROV2 robot further demonstrates the consistent robustness of our approach. Code: https://github.com/AIGeeksGroup/StereoAdapter. Website: https://aigeeksgroup.github.io/StereoAdapter.
PDF12September 23, 2025