ChatPaper.aiChatPaper

StereoAdapter-2: 전역 구조 일관성을 유지하는 수중 스테레오 깊이 추정

StereoAdapter-2: Globally Structure-Consistent Underwater Stereo Depth Estimation

February 18, 2026
저자: Zeyu Ren, Xiang Li, Yiran Wang, Zeyu Zhang, Hao Tang
cs.AI

초록

스테레오 깊이 추정은 수중 로봇 인식의 핵심 기술이지만, 파장에 따른 빛의 감쇠, 산란 및 굴절로 인한 심각한 도메인 변화에 취약합니다. 최근 연구에서는 수중 환경 적응을 위해 GRU 기반 반복 정제 방식을 활용하는 모노큘러 파운데이션 모델을 도입하고 있습니다. 그러나 GRU의 순차적 게이팅과 지역적 합성곱 커널은 장거리 시차 전파를 위해 다중 반복을 필요로 하여, 큰 시차와 무질 텍스처 영역이 많은 수중 환경에서 성능이 제한됩니다. 본 논문에서는 기존 ConvGRU 업데이터를 선택적 상태 공간 모델 기반의 새로운 ConvSS2D 연산자로 대체하는 StereoAdapter-2를 제안합니다. 제안 연산자는 에피폴라 기하학과 자연스럽게 정렬되면서 수직 구조 일관성을 포착하는 4방향 스캐닝 전략을 채택하여, 선형 계산 복잡도로 단일 업데이트 단계 내에서 효율적인 장거리 공간 전파를 가능하게 합니다. 더불어 의미론적 스타일 변환과 기하학적 일관성 신시점 합성을 결합한 2단계 생성 파이프라인을 통해 다양한 베이스라인, 감쇠 계수 및 산란 매개변수를 포함한 대규모 합성 수중 스테레오 데이터셋인 UW-StereoDepth-80K를 구축했습니다. StereoAdapter에서 계승된 동적 LoRA 적응 기법과 결합된 우리의 프레임워크는 수중 벤치마크에서 TartanAir-UW 기준 17%, SQUID 기준 7.2% 향상된 최첨단 제로샷 성능을 달성하였으며, BlueROV2 플랫폼에서의 실제 환경 검증을 통해 접근법의 강건성을 입증했습니다. 코드: https://github.com/AIGeeksGroup/StereoAdapter-2. 웹사이트: https://aigeeksgroup.github.io/StereoAdapter-2.
English
Stereo depth estimation is fundamental to underwater robotic perception, yet suffers from severe domain shifts caused by wavelength-dependent light attenuation, scattering, and refraction. Recent approaches leverage monocular foundation models with GRU-based iterative refinement for underwater adaptation; however, the sequential gating and local convolutional kernels in GRUs necessitate multiple iterations for long-range disparity propagation, limiting performance in large-disparity and textureless underwater regions. In this paper, we propose StereoAdapter-2, which replaces the conventional ConvGRU updater with a novel ConvSS2D operator based on selective state space models. The proposed operator employs a four-directional scanning strategy that naturally aligns with epipolar geometry while capturing vertical structural consistency, enabling efficient long-range spatial propagation within a single update step at linear computational complexity. Furthermore, we construct UW-StereoDepth-80K, a large-scale synthetic underwater stereo dataset featuring diverse baselines, attenuation coefficients, and scattering parameters through a two-stage generative pipeline combining semantic-aware style transfer and geometry-consistent novel view synthesis. Combined with dynamic LoRA adaptation inherited from StereoAdapter, our framework achieves state-of-the-art zero-shot performance on underwater benchmarks with 17% improvement on TartanAir-UW and 7.2% improvment on SQUID, with real-world validation on the BlueROV2 platform demonstrates the robustness of our approach. Code: https://github.com/AIGeeksGroup/StereoAdapter-2. Website: https://aigeeksgroup.github.io/StereoAdapter-2.
PDF01February 21, 2026