ChatPaper.aiChatPaper

CylinderDepth: 다중 뷰 일관성을 위한 원통형 공간 어텐션 기반 자가 지도 주변 깊이 추정

CylinderDepth: Cylindrical Spatial Attention for Multi-View Consistent Self-Supervised Surround Depth Estimation

April 8, 2026
저자: Samer Abualhanud, Christian Grannemann, Max Mehltretter
cs.AI

초록

자기 지도 방식의 서라운드 뷰 깊이 추정은 최소 중첩 영역을 가진 다중 이미지로부터 360° 시야각을 갖춘 고밀도·저비용 3D 인식을 가능하게 합니다. 그러나 기존 방법 대부분은 중첩 영역에서 깊이 추정값이 일관되지 못한 문제를 안고 있습니다. 이러한 한계를 해결하기 위해 우리는 캘리브레이션 및 시간 동기화된 다중 카메라 장비에서 밀집 미터법 깊이를 예측하는 새로운 기하학 기반 방식을 제안합니다. 우리의 접근법은 두 가지 주요 불일치 원인, 즉 단일 이미지 깊이 추정의 경계 영역에서 제한된 수용 영역과 대응점 정합의 어려움을 해결합니다. 두 문제를 완화하기 위해 뷰 간 수용 영역을 확장하고 교차 뷰 주의력을 작은 이웃 영역으로 제한합니다. 이를 위해 이미지별 특징점 위치를 공유 원통에 매핑하여 이미지 간 이웃 관계를 설정합니다. 원통 좌표를 기반으로 학습되지 않은 가중치를 적용한 명시적 공간 주의 메커니즘을 통해 원통 상의 거리에 따라 이미지 간 특징을 집계합니다. 조정된 특징은 각 뷰별 깊이 맵으로 디코딩됩니다. DDAD 및 nuScenes 데이터셋에서 평가한 결과, 우리 방법은 기존 최신 기법 대비 뷰 간 깊이 일관성과 전체 깊이 정확도를 모두 향상시켰습니다. 코드는 https://abualhanud.github.io/CylinderDepthPage에서 확인할 수 있습니다.
English
Self-supervised surround-view depth estimation enables dense, low-cost 3D perception with a 360° field of view from multiple minimally overlapping images. Yet, most existing methods suffer from depth estimates that are inconsistent across overlapping images. To address this limitation, we propose a novel geometry-guided method for calibrated, time-synchronized multi-camera rigs that predicts dense metric depth. Our approach targets two main sources of inconsistency: the limited receptive field in border regions of single-image depth estimation, and the difficulty of correspondence matching. We mitigate these two issues by extending the receptive field across views and restricting cross-view attention to a small neighborhood. To this end, we establish the neighborhood relationships between images by mapping the image-specific feature positions onto a shared cylinder. Based on the cylindrical positions, we apply an explicit spatial attention mechanism, with non-learned weighting, that aggregates features across images according to their distances on the cylinder. The modulated features are then decoded into a depth map for each view. Evaluated on the DDAD and nuScenes datasets, our method improves both cross-view depth consistency and overall depth accuracy compared with state-of-the-art approaches. Code is available at https://abualhanud.github.io/CylinderDepthPage.
PDF01April 11, 2026