ChatPaper.aiChatPaper

CylinderDepth: Цилиндрическая пространственная внимание для согласованной по множеству представлений самоконтролируемой оценки глубины окружения

CylinderDepth: Cylindrical Spatial Attention for Multi-View Consistent Self-Supervised Surround Depth Estimation

April 8, 2026
Авторы: Samer Abualhanud, Christian Grannemann, Max Mehltretter
cs.AI

Аннотация

Самообучаемая оценка глубины с круговым обзором позволяет обеспечить плотное и недорогое 3D-восприятие с полем обзора 360° на основе множества слабо перекрывающихся изображений. Однако большинство существующих методов страдают от несогласованности оценок глубины между перекрывающимися изображениями. Для решения этой проблемы мы предлагаем новый геометрически-ориентированный метод для калиброванных, синхронизированных по времени многокамерных систем, который предсказывает плотную метрическую глубину. Наш подход нацелен на два основных источника несогласованности: ограниченное рецептивное поле в краевых областях при оценке глубины по одному изображению и сложность установления соответствий между изображениями. Мы смягчаем эти две проблемы, расширяя рецептивное поле между видами и ограничивая кросс-вью внимание небольшой окрестностью. Для этого мы устанавливаем отношения соседства между изображениями, проецируя специфичные для изображения позиции признаков на общий цилиндр. На основе цилиндрических позиций мы применяем явный механизм пространственного внимания с необучаемыми весами, который агрегирует признаки между изображениями в соответствии с их расстояниями на цилиндре. Модулированные признаки затем декодируются в карту глубины для каждого вида. При оценке на наборах данных DDAD и nuScenes наш метод улучшает как согласованность глубины между видами, так и общую точность глубины по сравнению с передовыми подходами. Код доступен по адресу https://abualhanud.github.io/CylinderDepthPage.
English
Self-supervised surround-view depth estimation enables dense, low-cost 3D perception with a 360° field of view from multiple minimally overlapping images. Yet, most existing methods suffer from depth estimates that are inconsistent across overlapping images. To address this limitation, we propose a novel geometry-guided method for calibrated, time-synchronized multi-camera rigs that predicts dense metric depth. Our approach targets two main sources of inconsistency: the limited receptive field in border regions of single-image depth estimation, and the difficulty of correspondence matching. We mitigate these two issues by extending the receptive field across views and restricting cross-view attention to a small neighborhood. To this end, we establish the neighborhood relationships between images by mapping the image-specific feature positions onto a shared cylinder. Based on the cylindrical positions, we apply an explicit spatial attention mechanism, with non-learned weighting, that aggregates features across images according to their distances on the cylinder. The modulated features are then decoded into a depth map for each view. Evaluated on the DDAD and nuScenes datasets, our method improves both cross-view depth consistency and overall depth accuracy compared with state-of-the-art approaches. Code is available at https://abualhanud.github.io/CylinderDepthPage.
PDF01April 11, 2026