ChatPaper.aiChatPaper

StereoAdapter-2: Глобально структурно-согласованное подводное стереоскопическое оценивание глубины

StereoAdapter-2: Globally Structure-Consistent Underwater Stereo Depth Estimation

February 18, 2026
Авторы: Zeyu Ren, Xiang Li, Yiran Wang, Zeyu Zhang, Hao Tang
cs.AI

Аннотация

Оценка стереоскопической глубины является фундаментальной задачей подводного робототехнического восприятия, однако страдает от значительных доменных сдвигов, вызванных зависящим от длины волны ослаблением света, рассеянием и рефракцией. Современные подходы используют монокулярные фундаментальные модели с итеративным уточнением на основе GRU для адаптации к подводным условиям; однако последовательное стробирование и локальные сверточные ядра в GRU требуют множественных итераций для распространения диспаратности на большие расстояния, что ограничивает производительность в областях с большой диспаратностью и слаботекстурированных подводных регионах. В данной статье мы предлагаем StereoAdapter-2, который заменяет традиционный обновитель ConvGRU на новый оператор ConvSS2D, основанный на селективных моделях пространства состояний. Предлагаемый оператор использует четырехнаправленную стратегию сканирования, которая естественным образом согласуется с эпиполярной геометрией, одновременно захватывая вертикальную структурную согласованность, что позволяет эффективно распространять пространственную информацию на большие расстояния в рамках одного шага обновления при линейной вычислительной сложности. Кроме того, мы создаем UW-StereoDepth-80K, крупномасштабный синтетический набор данных подводного стерео с разнообразными базовыми линиями, коэффициентами затухания и параметрами рассеяния, используя двухэтапный генеративный конвейер, сочетающий семантически осознаваемый перенос стиля и синтез новых видов с геометрической согласованностью. В сочетании с унаследованной от StereoAdapter динамической адаптацией LoRA, наш фреймворк достигает передовой zero-shot производительности на подводных бенчмарках с улучшением на 17% на TartanAir-UW и на 7.2% на SQUID, а реальные испытания на платформе BlueROV2 демонстрируют надежность нашего подхода. Код: https://github.com/AIGeeksGroup/StereoAdapter-2. Сайт: https://aigeeksgroup.github.io/StereoAdapter-2.
English
Stereo depth estimation is fundamental to underwater robotic perception, yet suffers from severe domain shifts caused by wavelength-dependent light attenuation, scattering, and refraction. Recent approaches leverage monocular foundation models with GRU-based iterative refinement for underwater adaptation; however, the sequential gating and local convolutional kernels in GRUs necessitate multiple iterations for long-range disparity propagation, limiting performance in large-disparity and textureless underwater regions. In this paper, we propose StereoAdapter-2, which replaces the conventional ConvGRU updater with a novel ConvSS2D operator based on selective state space models. The proposed operator employs a four-directional scanning strategy that naturally aligns with epipolar geometry while capturing vertical structural consistency, enabling efficient long-range spatial propagation within a single update step at linear computational complexity. Furthermore, we construct UW-StereoDepth-80K, a large-scale synthetic underwater stereo dataset featuring diverse baselines, attenuation coefficients, and scattering parameters through a two-stage generative pipeline combining semantic-aware style transfer and geometry-consistent novel view synthesis. Combined with dynamic LoRA adaptation inherited from StereoAdapter, our framework achieves state-of-the-art zero-shot performance on underwater benchmarks with 17% improvement on TartanAir-UW and 7.2% improvment on SQUID, with real-world validation on the BlueROV2 platform demonstrates the robustness of our approach. Code: https://github.com/AIGeeksGroup/StereoAdapter-2. Website: https://aigeeksgroup.github.io/StereoAdapter-2.
PDF01February 21, 2026