CylinderDepth: Attenzione Spaziale Cilindrica per la Stima di Profondità Surround Auto-Supervisionata con Coerenza Multi-Vista

Abstract

La stima della profondità autosupervisionata a visualizzazione surround consente una percezione 3D densa e a basso costo con un campo visivo di 360° a partire da immagini multiple con sovrapposizione minima. Tuttavia, la maggior parte dei metodi esistenti soffre di stime di profondità inconsistenti tra le immagini sovrapposte. Per affrontare questa limitazione, proponiamo un metodo innovativo guidato dalla geometria per sistemi multi-camera calibrati e sincronizzati temporalmente, che predice una profondità metrica densa. Il nostro approccio mira a due fonti principali di inconsistenza: il campo recettivo limitato nelle regioni di bordo della stima di profondità monoculare e la difficoltà della corrispondenza di feature. Mitighiamo questi due problemi estendendo il campo recettivo attraverso le viste e limitando l'attenzione cross-view a un piccolo intorno. A tal fine, stabiliamo le relazioni di vicinato tra le immagini mappando le posizioni delle feature specifiche di ogni immagine su un cilindro condiviso. Sulla base delle posizioni cilindriche, applichiamo un meccanismo di attenzione spaziale esplicita, con ponderazione non appresa, che aggrega le feature tra le immagini in base alle loro distanze sul cilindro. Le feature modulate vengono poi decodificate in una mappa di profondità per ogni vista. Valutato sui dataset DDAD e nuScenes, il nostro metodo migliora sia la consistenza della profondità cross-view che l'accuratezza complessiva della profondità rispetto agli approcci allo stato dell'arte. Il codice è disponibile all'indirizzo https://abualhanud.github.io/CylinderDepthPage.

English

Self-supervised surround-view depth estimation enables dense, low-cost 3D perception with a 360° field of view from multiple minimally overlapping images. Yet, most existing methods suffer from depth estimates that are inconsistent across overlapping images. To address this limitation, we propose a novel geometry-guided method for calibrated, time-synchronized multi-camera rigs that predicts dense metric depth. Our approach targets two main sources of inconsistency: the limited receptive field in border regions of single-image depth estimation, and the difficulty of correspondence matching. We mitigate these two issues by extending the receptive field across views and restricting cross-view attention to a small neighborhood. To this end, we establish the neighborhood relationships between images by mapping the image-specific feature positions onto a shared cylinder. Based on the cylindrical positions, we apply an explicit spatial attention mechanism, with non-learned weighting, that aggregates features across images according to their distances on the cylinder. The modulated features are then decoded into a depth map for each view. Evaluated on the DDAD and nuScenes datasets, our method improves both cross-view depth consistency and overall depth accuracy compared with state-of-the-art approaches. Code is available at https://abualhanud.github.io/CylinderDepthPage.

CylinderDepth: Attenzione Spaziale Cilindrica per la Stima di Profondità Surround Auto-Supervisionata con Coerenza Multi-Vista

CylinderDepth: Cylindrical Spatial Attention for Multi-View Consistent Self-Supervised Surround Depth Estimation

Abstract

Support