CylinderDepth: Atención Espacial Cilíndrica para la Estimación de Profundidad de Entorno Autosupervisada con Consistencia Multi-Vista
CylinderDepth: Cylindrical Spatial Attention for Multi-View Consistent Self-Supervised Surround Depth Estimation
April 8, 2026
Autores: Samer Abualhanud, Christian Grannemann, Max Mehltretter
cs.AI
Resumen
La estimación de profundidad autosupervisada de vista envolvente permite una percepción 3D densa y de bajo coste con un campo de visión de 360° a partir de múltiples imágenes con superposición mínima. Sin embargo, la mayoría de los métodos existentes adolecen de estimaciones de profundidad que son inconsistentes entre las imágenes superpuestas. Para abordar esta limitación, proponemos un novedoso método guiado por geometría para arreglos de cámaras múltiples calibrados y sincronizados en el tiempo que predice la profundidad métrica densa. Nuestro enfoque se centra en dos fuentes principales de inconsistencia: el campo receptivo limitado en las regiones fronterizas de la estimación de profundidad de imagen única, y la dificultad de la correspondencia de puntos. Mitigamos estos dos problemas extendiendo el campo receptivo a través de las vistas y restringiendo la atención entre vistas a una pequeña vecindad. Para ello, establecemos las relaciones de vecindad entre imágenes mapeando las posiciones de las características específicas de cada imagen sobre un cilindro compartido. Basándonos en las posiciones cilíndricas, aplicamos un mecanismo de atención espacial explícito, con ponderación no aprendida, que agrega características entre imágenes según sus distancias en el cilindro. Las características moduladas se decodifican luego en un mapa de profundidad para cada vista. Evaluado en los conjuntos de datos DDAD y nuScenes, nuestro método mejora tanto la consistencia de la profundidad entre vistas como la precisión general de la profundidad en comparación con los enfoques más avanzados. El código está disponible en https://abualhanud.github.io/CylinderDepthPage.
English
Self-supervised surround-view depth estimation enables dense, low-cost 3D perception with a 360° field of view from multiple minimally overlapping images. Yet, most existing methods suffer from depth estimates that are inconsistent across overlapping images. To address this limitation, we propose a novel geometry-guided method for calibrated, time-synchronized multi-camera rigs that predicts dense metric depth. Our approach targets two main sources of inconsistency: the limited receptive field in border regions of single-image depth estimation, and the difficulty of correspondence matching. We mitigate these two issues by extending the receptive field across views and restricting cross-view attention to a small neighborhood. To this end, we establish the neighborhood relationships between images by mapping the image-specific feature positions onto a shared cylinder. Based on the cylindrical positions, we apply an explicit spatial attention mechanism, with non-learned weighting, that aggregates features across images according to their distances on the cylinder. The modulated features are then decoded into a depth map for each view. Evaluated on the DDAD and nuScenes datasets, our method improves both cross-view depth consistency and overall depth accuracy compared with state-of-the-art approaches. Code is available at https://abualhanud.github.io/CylinderDepthPage.