ChatPaper.aiChatPaper

StereoAdapter-2: Estimação de Profundidade Estéreo Subaquática Globalmente Consistente com a Estrutura

StereoAdapter-2: Globally Structure-Consistent Underwater Stereo Depth Estimation

February 18, 2026
Autores: Zeyu Ren, Xiang Li, Yiran Wang, Zeyu Zhang, Hao Tang
cs.AI

Resumo

A estimação de profundidade estéreo é fundamental para a percepção robótica subaquática, mas sofre com severas mudanças de domínio causadas pela atenuação da luz dependente do comprimento de onda, espalhamento e refração. Abordagens recentes aproveitam modelos de base monoculares com refinamento iterativo baseado em GRU para adaptação subaquática; no entanto, o gateamento sequencial e os kernels convolucionais locais nas GRUs exigem múltiplas iterações para propagação de disparidade de longo alcance, limitando o desempenho em regiões subaquáticas com grandes disparidades e sem textura. Neste artigo, propomos o StereoAdapter-2, que substitui o atualizador ConvGRU convencional por um novo operador ConvSS2D baseado em modelos de espaço de estados seletivos. O operador proposto emprega uma estratégia de varredura quadridental que se alinha naturalmente com a geometria epipolar enquanto captura a consistência estrutural vertical, permitindo uma propagação espacial eficiente de longo alcance dentro de uma única etapa de atualização com complexidade computacional linear. Além disso, construímos o UW-StereoDepth-80K, um grande conjunto de dados estéreo subaquático sintético com diversas linhas de base, coeficientes de atenuação e parâmetros de espalhamento, por meio de um pipeline generativo de dois estágios que combina transferência de estilo com consciência semântica e síntese de novas vistas com consistência geométrica. Combinado com a adaptação dinâmica LoRA herdada do StereoAdapter, nosso framework atinge desempenho state-of-the-art em avaliação zero-shot em benchmarks subaquáticos, com uma melhoria de 17% no TartanAir-UW e 7,2% no SQUID, com a validação no mundo real na plataforma BlueROV2 demonstrando a robustez da nossa abordagem. Código: https://github.com/AIGeeksGroup/StereoAdapter-2. Website: https://aigeeksgroup.github.io/StereoAdapter-2.
English
Stereo depth estimation is fundamental to underwater robotic perception, yet suffers from severe domain shifts caused by wavelength-dependent light attenuation, scattering, and refraction. Recent approaches leverage monocular foundation models with GRU-based iterative refinement for underwater adaptation; however, the sequential gating and local convolutional kernels in GRUs necessitate multiple iterations for long-range disparity propagation, limiting performance in large-disparity and textureless underwater regions. In this paper, we propose StereoAdapter-2, which replaces the conventional ConvGRU updater with a novel ConvSS2D operator based on selective state space models. The proposed operator employs a four-directional scanning strategy that naturally aligns with epipolar geometry while capturing vertical structural consistency, enabling efficient long-range spatial propagation within a single update step at linear computational complexity. Furthermore, we construct UW-StereoDepth-80K, a large-scale synthetic underwater stereo dataset featuring diverse baselines, attenuation coefficients, and scattering parameters through a two-stage generative pipeline combining semantic-aware style transfer and geometry-consistent novel view synthesis. Combined with dynamic LoRA adaptation inherited from StereoAdapter, our framework achieves state-of-the-art zero-shot performance on underwater benchmarks with 17% improvement on TartanAir-UW and 7.2% improvment on SQUID, with real-world validation on the BlueROV2 platform demonstrates the robustness of our approach. Code: https://github.com/AIGeeksGroup/StereoAdapter-2. Website: https://aigeeksgroup.github.io/StereoAdapter-2.
PDF01February 21, 2026