StereoAdapter: Adaptando a Estimativa de Profundidade Estéreo para Cenas Subaquáticas
StereoAdapter: Adapting Stereo Depth Estimation to Underwater Scenes
September 19, 2025
Autores: Zhengri Wu, Yiran Wang, Yu Wen, Zeyu Zhang, Biao Wu, Hao Tang
cs.AI
Resumo
A estimação de profundidade estéreo subaquática fornece geometria 3D precisa para tarefas robóticas como navegação, inspeção e mapeamento, oferecendo profundidade métrica a partir de câmeras passivas de baixo custo, evitando a ambiguidade de escala dos métodos monoculares. No entanto, as abordagens existentes enfrentam dois desafios críticos: (i) adaptar de forma eficiente em termos de parâmetros grandes codificadores de visão de base ao domínio subaquático sem a necessidade de dados rotulados extensivos, e (ii) integrar de maneira coesa prioridades monoculares globalmente coerentes, mas com escala ambígua, com correspondências estéreo localmente métricas, porém fotometricamente frágeis. Para abordar esses desafios, propomos o StereoAdapter, um framework auto-supervisionado eficiente em parâmetros que integra um codificador de base monocular adaptado com LoRA a um módulo de refinamento estéreo recorrente. Além disso, introduzimos a adaptação dinâmica de LoRA para seleção eficiente de rank e pré-treinamento no conjunto de dados sintético UW-StereoDepth-40K para aumentar a robustez em diversas condições subaquáticas. Avaliações abrangentes em benchmarks simulados e do mundo real mostram melhorias de 6,11% no TartanAir e 5,12% no SQUID em comparação com os métodos mais avançados, enquanto a implantação no mundo real com o robô BlueROV2 demonstra ainda mais a robustez consistente da nossa abordagem. Código: https://github.com/AIGeeksGroup/StereoAdapter. Website: https://aigeeksgroup.github.io/StereoAdapter.
English
Underwater stereo depth estimation provides accurate 3D geometry for robotics
tasks such as navigation, inspection, and mapping, offering metric depth from
low-cost passive cameras while avoiding the scale ambiguity of monocular
methods. However, existing approaches face two critical challenges: (i)
parameter-efficiently adapting large vision foundation encoders to the
underwater domain without extensive labeled data, and (ii) tightly fusing
globally coherent but scale-ambiguous monocular priors with locally metric yet
photometrically fragile stereo correspondences. To address these challenges, we
propose StereoAdapter, a parameter-efficient self-supervised framework that
integrates a LoRA-adapted monocular foundation encoder with a recurrent stereo
refinement module. We further introduce dynamic LoRA adaptation for efficient
rank selection and pre-training on the synthetic UW-StereoDepth-40K dataset to
enhance robustness under diverse underwater conditions. Comprehensive
evaluations on both simulated and real-world benchmarks show improvements of
6.11% on TartanAir and 5.12% on SQUID compared to state-of-the-art methods,
while real-world deployment with the BlueROV2 robot further demonstrates the
consistent robustness of our approach. Code:
https://github.com/AIGeeksGroup/StereoAdapter. Website:
https://aigeeksgroup.github.io/StereoAdapter.