StereoAdapter-2 : Estimation de la profondeur stéréo sous-marine à cohérence structurelle globale
StereoAdapter-2: Globally Structure-Consistent Underwater Stereo Depth Estimation
February 18, 2026
papers.authors: Zeyu Ren, Xiang Li, Yiran Wang, Zeyu Zhang, Hao Tang
cs.AI
papers.abstract
L'estimation de la profondeur stéréo est fondamentale pour la perception robotique sous-marine, mais elle souffre de décalages de domaine sévères causés par l'atténuation lumineuse dépendante de la longueur d'onde, la diffusion et la réfraction. Les approches récentes exploitent des modèles de fondation monoculaires avec un raffinement itératif basé sur des GRU pour l'adaptation sous-marine ; cependant, le gating séquentiel et les noyaux convolutionnels locaux dans les GRU nécessitent de multiples itérations pour la propagation de disparité à longue distance, limitant les performances dans les régions sous-marines à grande disparité et sans texture. Dans cet article, nous proposons StereoAdapter-2, qui remplace le module de mise à jour ConvGRU conventionnel par un nouvel opérateur ConvSS2D basé sur des modèles à espace d'états sélectifs. L'opérateur proposé utilise une stratégie de balayage quadridirectionnelle qui s'aligne naturellement avec la géométrie épipolaire tout en capturant la cohérence structurelle verticale, permettant une propagation spatiale efficace à longue distance en une seule étape de mise à jour avec une complexité computationnelle linéaire. De plus, nous construisons UW-StereoDepth-80K, un vaste ensemble de données stéréo sous-marines synthétiques présentant des bases variées, des coefficients d'atténuation et des paramètres de diffusion grâce à un pipeline génératif en deux étapes combinant un transfert de style sémantique et une synthèse de nouvelles vues géométriquement cohérentes. Combiné à l'adaptation LoRA dynamique héritée de StereoAdapter, notre cadre atteint des performances state-of-the-art en zero-shot sur des benchmarks sous-marins avec une amélioration de 17% sur TartanAir-UW et de 7.2% sur SQUID, la validation en conditions réelles sur la plateforme BlueROV2 démontrant la robustesse de notre approche. Code : https://github.com/AIGeeksGroup/StereoAdapter-2. Site web : https://aigeeksgroup.github.io/StereoAdapter-2.
English
Stereo depth estimation is fundamental to underwater robotic perception, yet suffers from severe domain shifts caused by wavelength-dependent light attenuation, scattering, and refraction. Recent approaches leverage monocular foundation models with GRU-based iterative refinement for underwater adaptation; however, the sequential gating and local convolutional kernels in GRUs necessitate multiple iterations for long-range disparity propagation, limiting performance in large-disparity and textureless underwater regions. In this paper, we propose StereoAdapter-2, which replaces the conventional ConvGRU updater with a novel ConvSS2D operator based on selective state space models. The proposed operator employs a four-directional scanning strategy that naturally aligns with epipolar geometry while capturing vertical structural consistency, enabling efficient long-range spatial propagation within a single update step at linear computational complexity. Furthermore, we construct UW-StereoDepth-80K, a large-scale synthetic underwater stereo dataset featuring diverse baselines, attenuation coefficients, and scattering parameters through a two-stage generative pipeline combining semantic-aware style transfer and geometry-consistent novel view synthesis. Combined with dynamic LoRA adaptation inherited from StereoAdapter, our framework achieves state-of-the-art zero-shot performance on underwater benchmarks with 17% improvement on TartanAir-UW and 7.2% improvment on SQUID, with real-world validation on the BlueROV2 platform demonstrates the robustness of our approach. Code: https://github.com/AIGeeksGroup/StereoAdapter-2. Website: https://aigeeksgroup.github.io/StereoAdapter-2.