StereoAdapter-2: Estimación de Profundidad Estéreo Subacuática Globalmente Consistente con la Estructura
StereoAdapter-2: Globally Structure-Consistent Underwater Stereo Depth Estimation
February 18, 2026
Autores: Zeyu Ren, Xiang Li, Yiran Wang, Zeyu Zhang, Hao Tang
cs.AI
Resumen
La estimación de profundidad estéreo es fundamental para la percepción robótica subacuática, pero sufre graves cambios de dominio causados por la atenuación de la luz dependiente de la longitud de onda, la dispersión y la refracción. Los enfoques recientes aprovechan modelos base monoculares con refinamiento iterativo basado en GRU para la adaptación subacuática; sin embargo, el gateo secuencial y los núcleos convolucionales locales en las GRU requieren múltiples iteraciones para la propagación de disparidad de largo alcance, lo que limita el rendimiento en regiones subacuáticas de gran disparidad y sin textura. En este artículo, proponemos StereoAdapter-2, que reemplaza el actualizador ConvGRU convencional con un nuevo operador ConvSS2D basado en modelos de espacio de estados selectivos. El operador propuesto emplea una estrategia de escaneo cuatridireccional que se alinea naturalmente con la geometría epipolar mientras captura la consistencia estructural vertical, permitiendo una propagación espacial de largo alcance eficiente en un solo paso de actualización con complejidad computacional lineal. Además, construimos UW-StereoDepth-80K, un conjunto de datos estéreo subacuático sintético a gran escala que presenta diversas líneas base, coeficientes de atenuación y parámetros de dispersión mediante una pipeline generativa en dos etapas que combina la transferencia de estilo con conciencia semántica y la síntesis de nuevas vistas con consistencia geométrica. Combinado con la adaptación dinámica LoRA heredada de StereoAdapter, nuestro marco logra un rendimiento de cero disparo state-of-the-art en benchmarks subacuáticos, con una mejora del 17% en TartanAir-UW y del 7.2% en SQUID. La validación en el mundo real con la plataforma BlueROV2 demuestra la robustez de nuestro enfoque. Código: https://github.com/AIGeeksGroup/StereoAdapter-2. Sitio web: https://aigeeksgroup.github.io/StereoAdapter-2.
English
Stereo depth estimation is fundamental to underwater robotic perception, yet suffers from severe domain shifts caused by wavelength-dependent light attenuation, scattering, and refraction. Recent approaches leverage monocular foundation models with GRU-based iterative refinement for underwater adaptation; however, the sequential gating and local convolutional kernels in GRUs necessitate multiple iterations for long-range disparity propagation, limiting performance in large-disparity and textureless underwater regions. In this paper, we propose StereoAdapter-2, which replaces the conventional ConvGRU updater with a novel ConvSS2D operator based on selective state space models. The proposed operator employs a four-directional scanning strategy that naturally aligns with epipolar geometry while capturing vertical structural consistency, enabling efficient long-range spatial propagation within a single update step at linear computational complexity. Furthermore, we construct UW-StereoDepth-80K, a large-scale synthetic underwater stereo dataset featuring diverse baselines, attenuation coefficients, and scattering parameters through a two-stage generative pipeline combining semantic-aware style transfer and geometry-consistent novel view synthesis. Combined with dynamic LoRA adaptation inherited from StereoAdapter, our framework achieves state-of-the-art zero-shot performance on underwater benchmarks with 17% improvement on TartanAir-UW and 7.2% improvment on SQUID, with real-world validation on the BlueROV2 platform demonstrates the robustness of our approach. Code: https://github.com/AIGeeksGroup/StereoAdapter-2. Website: https://aigeeksgroup.github.io/StereoAdapter-2.