CylinderDepth: Cilindrische Ruimtelijke Aandacht voor Multi-View Consistente Zelf-gesuperviseerde Omgevingsdiepteschatting
CylinderDepth: Cylindrical Spatial Attention for Multi-View Consistent Self-Supervised Surround Depth Estimation
April 8, 2026
Auteurs: Samer Abualhanud, Christian Grannemann, Max Mehltretter
cs.AI
Samenvatting
Zelf-gesuperviseerde surround-view diepteschatting maakt dichte, goedkope 3D-perceptie mogelijk met een 360° gezichtsveld op basis van meerdere minimaal overlappende beelden. Toch lijden de meeste bestaande methoden onder diepteschattingen die inconsistent zijn tussen overlappende beelden. Om deze beperking aan te pakken, stellen we een nieuwe geometrie-gestuurde methode voor voor gekalibreerde, tijdsgesynchroniseerde multi-camera-opstellingen die dichte metrische diepte voorspelt. Onze aanpak richt zich op twee hoofdoorzaken van inconsistentie: het beperkte receptieve veld in randgebieden bij enkelbeeld-diepteschatting, en de moeilijkheid van correspondentiematching. We verlichten deze twee problemen door het receptieve veld over views heen uit te breiden en cross-view aandacht te beperken tot een kleine omgeving. Hiertoe stellen we de nabuurschapsrelaties tussen beelden vast door de beeld-specifieke kenmerkposities op een gedeelde cilinder af te beelden. Gebaseerd op de cilindrische posities passen we een expliciet ruimtelijk aandachtmechanisme toe, met niet-aangeleerde gewichting, dat kenmerken over beelden aggregeert volgens hun afstanden op de cilinder. De gemoduleerde kenmerken worden vervolgens per view gedecodeerd naar een dieptekaart. Geëvalueerd op de DDAD- en nuScenes-datasets verbetert onze methode zowel de cross-view diepteconsistentie als de algehele dieptenauwkeurigheid in vergelijking met state-of-the-art benaderingen. Code is beschikbaar op https://abualhanud.github.io/CylinderDepthPage.
English
Self-supervised surround-view depth estimation enables dense, low-cost 3D perception with a 360° field of view from multiple minimally overlapping images. Yet, most existing methods suffer from depth estimates that are inconsistent across overlapping images. To address this limitation, we propose a novel geometry-guided method for calibrated, time-synchronized multi-camera rigs that predicts dense metric depth. Our approach targets two main sources of inconsistency: the limited receptive field in border regions of single-image depth estimation, and the difficulty of correspondence matching. We mitigate these two issues by extending the receptive field across views and restricting cross-view attention to a small neighborhood. To this end, we establish the neighborhood relationships between images by mapping the image-specific feature positions onto a shared cylinder. Based on the cylindrical positions, we apply an explicit spatial attention mechanism, with non-learned weighting, that aggregates features across images according to their distances on the cylinder. The modulated features are then decoded into a depth map for each view. Evaluated on the DDAD and nuScenes datasets, our method improves both cross-view depth consistency and overall depth accuracy compared with state-of-the-art approaches. Code is available at https://abualhanud.github.io/CylinderDepthPage.