StereoAdapter-2: Stima della Profondità Stereo Subacquea Globalmente Strutturalmente Coerente

Abstract

La stima della profondità stereo è fondamentale per la percezione robotica subacquea, ma soffre di gravi cambiamenti di dominio causati dall'attenuazione della luce dipendente dalla lunghezza d'onda, dalla diffusione e dalla rifrazione. Gli approcci recenti sfruttano modelli foundation monoculari con raffinamento iterativo basato su GRU per l'adattamento subacqueo; tuttavia, il gating sequenziale e i kernel convoluzionali locali nelle GRU richiedono multiple iterazioni per la propagazione della disparità a lungo raggio, limitando le prestazioni nelle regioni subacquee con grandi disparità e senza texture. In questo articolo, proponiamo StereoAdapter-2, che sostituisce l'aggiornatore ConvGRU convenzionale con un nuovo operatore ConvSS2D basato su modelli di stato selettivi (selective state space models). L'operatore proposto impiega una strategia di scansione quadridirezionale che si allinea naturalmente con la geometria epipolare mentre cattura la coerenza strutturale verticale, consentendo un'efficiente propagazione spaziale a lungo raggio all'interno di un singolo passo di aggiornamento con complessità computazionale lineare. Inoltre, costruiamo UW-StereoDepth-80K, un ampio dataset stereo sintetico subacqueo che presenta diverse baseline, coefficienti di attenuazione e parametri di diffusione attraverso una pipeline generativa in due stadi che combina il transfer di stile semantico-consapevole e la sintesi di nuove viste geometricamente consistenti. Combinato con l'adattamento dinamico LoRA ereditato da StereoAdapter, il nostro framework raggiunge prestazioni state-of-the-art zero-shot su benchmark subacquei con un miglioramento del 17% su TartanAir-UW e del 7.2% su SQUID, mentre la validazione nel mondo reale sulla piattaforma BlueROV2 dimostra la robustezza del nostro approccio. Codice: https://github.com/AIGeeksGroup/StereoAdapter-2. Sito web: https://aigeeksgroup.github.io/StereoAdapter-2.

English

Stereo depth estimation is fundamental to underwater robotic perception, yet suffers from severe domain shifts caused by wavelength-dependent light attenuation, scattering, and refraction. Recent approaches leverage monocular foundation models with GRU-based iterative refinement for underwater adaptation; however, the sequential gating and local convolutional kernels in GRUs necessitate multiple iterations for long-range disparity propagation, limiting performance in large-disparity and textureless underwater regions. In this paper, we propose StereoAdapter-2, which replaces the conventional ConvGRU updater with a novel ConvSS2D operator based on selective state space models. The proposed operator employs a four-directional scanning strategy that naturally aligns with epipolar geometry while capturing vertical structural consistency, enabling efficient long-range spatial propagation within a single update step at linear computational complexity. Furthermore, we construct UW-StereoDepth-80K, a large-scale synthetic underwater stereo dataset featuring diverse baselines, attenuation coefficients, and scattering parameters through a two-stage generative pipeline combining semantic-aware style transfer and geometry-consistent novel view synthesis. Combined with dynamic LoRA adaptation inherited from StereoAdapter, our framework achieves state-of-the-art zero-shot performance on underwater benchmarks with 17% improvement on TartanAir-UW and 7.2% improvment on SQUID, with real-world validation on the BlueROV2 platform demonstrates the robustness of our approach. Code: https://github.com/AIGeeksGroup/StereoAdapter-2. Website: https://aigeeksgroup.github.io/StereoAdapter-2.

StereoAdapter-2: Stima della Profondità Stereo Subacquea Globalmente Strutturalmente Coerente

StereoAdapter-2: Globally Structure-Consistent Underwater Stereo Depth Estimation

Abstract

Support