StereoAdapter-2: Global strukturkonstante Tiefenschätzung für Unterwasser-Stereobilder
StereoAdapter-2: Globally Structure-Consistent Underwater Stereo Depth Estimation
February 18, 2026
papers.authors: Zeyu Ren, Xiang Li, Yiran Wang, Zeyu Zhang, Hao Tang
cs.AI
papers.abstract
Die stereoskopische Tiefenschätzung ist grundlegend für die Unterwasserrobotikwahrnehmung, leidet jedoch unter erheblichen Domänenverschiebungen durch wellenlängenabhängige Lichtabsorption, Streuung und Brechung. Aktuelle Ansätze nutzen monokulare Foundation-Modelle mit GRU-basierter iterativer Optimierung für die Unterwasseranpassung; jedoch erfordern die sequentielle Gating-Mechanik und lokalen Faltungskerne in GRUs mehrere Iterationen für die Disparitätsausbreitung über große Distanzen, was die Leistung in unterwassertypischen Bereichen mit großen Disparitäten und texturlosen Regionen begrenzt. In diesem Beitrag stellen wir StereoAdapter-2 vor, das den konventionellen ConvGRU-Updater durch einen neuartigen ConvSS2D-Operator auf Basis selektiver State-Space-Modelle ersetzt. Der vorgeschlagene Operator verwendet eine vierdirektionale Abtaststrategie, die sich natürlich mit der Epipolargeometrie deckt und gleichzeitig vertikale Strukturkonsistenz erfasst, wodurch eine effiziente räumliche Ausbreitung über große Distanzen in einem einzigen Aktualisierungsschritt bei linearem Rechenaufwand ermöglicht wird. Darüber hinaus erstellen wir UW-StereoDepth-80K, einen groß angelegten synthetischen Unterwasser-Stereodatensatz mit variierenden Basislinien, Absorptionskoeffizienten und Streuparametern, generiert durch eine zweistufige Pipeline mit semantikbewusstem Stiltransfer und geometriekonsistenter Neuansichtssynthese. In Kombination mit der von StereoAdapter übernommenen dynamischen LoRA-Adaptation erzielt unser Framework State-of-the-Art Zero-Shot-Leistung auf Unterwasser-Benchmarks mit 17 % Verbesserung auf TartanAir-UW und 7,2 % auf SQUID. Die Validierung unter Realbedingungen auf der BlueROV2-Plattform demonstriert die Robustheit unseres Ansatzes. Code: https://github.com/AIGeeksGroup/StereoAdapter-2. Website: https://aigeeksgroup.github.io/StereoAdapter-2.
English
Stereo depth estimation is fundamental to underwater robotic perception, yet suffers from severe domain shifts caused by wavelength-dependent light attenuation, scattering, and refraction. Recent approaches leverage monocular foundation models with GRU-based iterative refinement for underwater adaptation; however, the sequential gating and local convolutional kernels in GRUs necessitate multiple iterations for long-range disparity propagation, limiting performance in large-disparity and textureless underwater regions. In this paper, we propose StereoAdapter-2, which replaces the conventional ConvGRU updater with a novel ConvSS2D operator based on selective state space models. The proposed operator employs a four-directional scanning strategy that naturally aligns with epipolar geometry while capturing vertical structural consistency, enabling efficient long-range spatial propagation within a single update step at linear computational complexity. Furthermore, we construct UW-StereoDepth-80K, a large-scale synthetic underwater stereo dataset featuring diverse baselines, attenuation coefficients, and scattering parameters through a two-stage generative pipeline combining semantic-aware style transfer and geometry-consistent novel view synthesis. Combined with dynamic LoRA adaptation inherited from StereoAdapter, our framework achieves state-of-the-art zero-shot performance on underwater benchmarks with 17% improvement on TartanAir-UW and 7.2% improvment on SQUID, with real-world validation on the BlueROV2 platform demonstrates the robustness of our approach. Code: https://github.com/AIGeeksGroup/StereoAdapter-2. Website: https://aigeeksgroup.github.io/StereoAdapter-2.