ChatPaper.aiChatPaper

StereoAdapter: Adaptación de la Estimación de Profundidad Estéreo a Escenas Subacuáticas

StereoAdapter: Adapting Stereo Depth Estimation to Underwater Scenes

September 19, 2025
Autores: Zhengri Wu, Yiran Wang, Yu Wen, Zeyu Zhang, Biao Wu, Hao Tang
cs.AI

Resumen

La estimación de profundidad estéreo subacuática proporciona una geometría 3D precisa para tareas robóticas como navegación, inspección y mapeo, ofreciendo profundidad métrica a partir de cámaras pasivas de bajo costo mientras evita la ambigüedad de escala de los métodos monoculares. Sin embargo, los enfoques existentes enfrentan dos desafíos críticos: (i) adaptar de manera eficiente en parámetros grandes codificadores de visión base al dominio subacuático sin necesidad de datos etiquetados extensivos, y (ii) fusionar de manera estrecha prioridades monoculares globalmente coherentes pero ambiguas en escala con correspondencias estéreo localmente métricas pero fotométricamente frágiles. Para abordar estos desafíos, proponemos StereoAdapter, un marco autosupervisado eficiente en parámetros que integra un codificador base monocular adaptado con LoRA junto con un módulo recurrente de refinamiento estéreo. Además, introducimos la adaptación dinámica de LoRA para una selección eficiente de rango y preentrenamiento en el conjunto de datos sintético UW-StereoDepth-40K para mejorar la robustez bajo diversas condiciones subacuáticas. Evaluaciones exhaustivas en benchmarks tanto simulados como del mundo real muestran mejoras del 6.11% en TartanAir y del 5.12% en SQUID en comparación con los métodos más avanzados, mientras que el despliegue en el mundo real con el robot BlueROV2 demuestra además la consistente robustez de nuestro enfoque. Código: https://github.com/AIGeeksGroup/StereoAdapter. Sitio web: https://aigeeksgroup.github.io/StereoAdapter.
English
Underwater stereo depth estimation provides accurate 3D geometry for robotics tasks such as navigation, inspection, and mapping, offering metric depth from low-cost passive cameras while avoiding the scale ambiguity of monocular methods. However, existing approaches face two critical challenges: (i) parameter-efficiently adapting large vision foundation encoders to the underwater domain without extensive labeled data, and (ii) tightly fusing globally coherent but scale-ambiguous monocular priors with locally metric yet photometrically fragile stereo correspondences. To address these challenges, we propose StereoAdapter, a parameter-efficient self-supervised framework that integrates a LoRA-adapted monocular foundation encoder with a recurrent stereo refinement module. We further introduce dynamic LoRA adaptation for efficient rank selection and pre-training on the synthetic UW-StereoDepth-40K dataset to enhance robustness under diverse underwater conditions. Comprehensive evaluations on both simulated and real-world benchmarks show improvements of 6.11% on TartanAir and 5.12% on SQUID compared to state-of-the-art methods, while real-world deployment with the BlueROV2 robot further demonstrates the consistent robustness of our approach. Code: https://github.com/AIGeeksGroup/StereoAdapter. Website: https://aigeeksgroup.github.io/StereoAdapter.
PDF12September 23, 2025