ChatPaper.aiChatPaper

StereoAdapter-2: グローバルに構造整合性のある水中ステレオ深度推定

StereoAdapter-2: Globally Structure-Consistent Underwater Stereo Depth Estimation

February 18, 2026
著者: Zeyu Ren, Xiang Li, Yiran Wang, Zeyu Zhang, Hao Tang
cs.AI

要旨

ステレオ深度推定は水中ロボット知覚の基本技術であるが、波長依存的光減衰、散乱、屈折による深刻なドメインシフトに悩まされている。近年のアプローチでは、GRUベースの反復的精密化を伴う単眼基盤モデルを水中適応に活用している。しかし、GRUの逐次ゲート処理と局所的な畳み込みカーネルは、長距離視差伝播に多数の反復を必要とし、大きな視差を持つテクスチャレスな水中領域での性能を制限している。本論文では、従来のConvGRU更新器を選択的状態空間モデルに基づく新しいConvSS2D演算子に置き換えたStereoAdapter-2を提案する。提案演算子は、エピポーラ幾何学に自然に整合しつつ垂直方向の構造的一貫性を捕捉する四方向走査戦略を採用し、線形計算量で単一の更新ステップ内で効率的な長距離空間伝播を実現する。さらに、セマンティック認識型スタイル変換と幾何学的一貫性のある新規視点合成を組み合わせた二段階生成パイプラインを通じて、多様なベースライン、減衰係数、散乱パラメータを特徴とする大規模合成水中ステレオデータセットUW-StereoDepth-80Kを構築した。StereoAdapterから継承した動的LoRA適応と組み合わせることで、本フレームワークは水中ベンチマークにおいてゼロショット性能で最先端を達成し、TartanAir-UWで17%、SQUIDで7.2%の改善を示した。BlueROV2プラットフォームでの実世界検証により、本アプローチのロバスト性が実証されている。コード: https://github.com/AIGeeksGroup/StereoAdapter-2. ウェブサイト: https://aigeeksgroup.github.io/StereoAdapter-2.
English
Stereo depth estimation is fundamental to underwater robotic perception, yet suffers from severe domain shifts caused by wavelength-dependent light attenuation, scattering, and refraction. Recent approaches leverage monocular foundation models with GRU-based iterative refinement for underwater adaptation; however, the sequential gating and local convolutional kernels in GRUs necessitate multiple iterations for long-range disparity propagation, limiting performance in large-disparity and textureless underwater regions. In this paper, we propose StereoAdapter-2, which replaces the conventional ConvGRU updater with a novel ConvSS2D operator based on selective state space models. The proposed operator employs a four-directional scanning strategy that naturally aligns with epipolar geometry while capturing vertical structural consistency, enabling efficient long-range spatial propagation within a single update step at linear computational complexity. Furthermore, we construct UW-StereoDepth-80K, a large-scale synthetic underwater stereo dataset featuring diverse baselines, attenuation coefficients, and scattering parameters through a two-stage generative pipeline combining semantic-aware style transfer and geometry-consistent novel view synthesis. Combined with dynamic LoRA adaptation inherited from StereoAdapter, our framework achieves state-of-the-art zero-shot performance on underwater benchmarks with 17% improvement on TartanAir-UW and 7.2% improvment on SQUID, with real-world validation on the BlueROV2 platform demonstrates the robustness of our approach. Code: https://github.com/AIGeeksGroup/StereoAdapter-2. Website: https://aigeeksgroup.github.io/StereoAdapter-2.
PDF01February 21, 2026