ChatPaper.aiChatPaper

StereoAdapter: Adaptando a Estimativa de Profundidade Estéreo para Cenas Subaquáticas

StereoAdapter: Adapting Stereo Depth Estimation to Underwater Scenes

September 19, 2025
Autores: Zhengri Wu, Yiran Wang, Yu Wen, Zeyu Zhang, Biao Wu, Hao Tang
cs.AI

Resumo

A estimação de profundidade estéreo subaquática fornece geometria 3D precisa para tarefas robóticas como navegação, inspeção e mapeamento, oferecendo profundidade métrica a partir de câmeras passivas de baixo custo, evitando a ambiguidade de escala dos métodos monoculares. No entanto, as abordagens existentes enfrentam dois desafios críticos: (i) adaptar de forma eficiente em termos de parâmetros grandes codificadores de visão de base ao domínio subaquático sem a necessidade de dados rotulados extensivos, e (ii) integrar de maneira coesa prioridades monoculares globalmente coerentes, mas com escala ambígua, com correspondências estéreo localmente métricas, porém fotometricamente frágeis. Para abordar esses desafios, propomos o StereoAdapter, um framework auto-supervisionado eficiente em parâmetros que integra um codificador de base monocular adaptado com LoRA a um módulo de refinamento estéreo recorrente. Além disso, introduzimos a adaptação dinâmica de LoRA para seleção eficiente de rank e pré-treinamento no conjunto de dados sintético UW-StereoDepth-40K para aumentar a robustez em diversas condições subaquáticas. Avaliações abrangentes em benchmarks simulados e do mundo real mostram melhorias de 6,11% no TartanAir e 5,12% no SQUID em comparação com os métodos mais avançados, enquanto a implantação no mundo real com o robô BlueROV2 demonstra ainda mais a robustez consistente da nossa abordagem. Código: https://github.com/AIGeeksGroup/StereoAdapter. Website: https://aigeeksgroup.github.io/StereoAdapter.
English
Underwater stereo depth estimation provides accurate 3D geometry for robotics tasks such as navigation, inspection, and mapping, offering metric depth from low-cost passive cameras while avoiding the scale ambiguity of monocular methods. However, existing approaches face two critical challenges: (i) parameter-efficiently adapting large vision foundation encoders to the underwater domain without extensive labeled data, and (ii) tightly fusing globally coherent but scale-ambiguous monocular priors with locally metric yet photometrically fragile stereo correspondences. To address these challenges, we propose StereoAdapter, a parameter-efficient self-supervised framework that integrates a LoRA-adapted monocular foundation encoder with a recurrent stereo refinement module. We further introduce dynamic LoRA adaptation for efficient rank selection and pre-training on the synthetic UW-StereoDepth-40K dataset to enhance robustness under diverse underwater conditions. Comprehensive evaluations on both simulated and real-world benchmarks show improvements of 6.11% on TartanAir and 5.12% on SQUID compared to state-of-the-art methods, while real-world deployment with the BlueROV2 robot further demonstrates the consistent robustness of our approach. Code: https://github.com/AIGeeksGroup/StereoAdapter. Website: https://aigeeksgroup.github.io/StereoAdapter.
PDF22September 23, 2025