CylinderDepth: Atenção Espacial Cilíndrica para Estimativa de Profundidade de Entorno Autossupervisionada com Consistência Multi-Vista
CylinderDepth: Cylindrical Spatial Attention for Multi-View Consistent Self-Supervised Surround Depth Estimation
April 8, 2026
Autores: Samer Abualhanud, Christian Grannemann, Max Mehltretter
cs.AI
Resumo
A estimativa de profundidade autossupervisionada com visão de 360° permite uma percepção 3D densa e de baixo custo com um campo de visão completo a partir de múltiplas imagens com sobreposição mínima. No entanto, a maioria dos métodos existentes sofre com estimativas de profundidade inconsistentes entre as imagens sobrepostas. Para superar esta limitação, propomos um novo método guiado por geometria para *rigs* de multicâmaras calibradas e sincronizadas no tempo, que prevê profundidade métrica densa. Nossa abordagem visa duas fontes principais de inconsistência: o campo receptivo limitado nas regiões de borda da estimativa de profundidade de imagem única e a dificuldade de correspondência de *correspondences*. Mitigamos estes dois problemas estendendo o campo receptivo através das vistas e restringindo a atenção cruzada a uma pequena vizinhança. Para tal, estabelecemos as relações de vizinhança entre as imagens mapeando as posições dos *features* específicos de cada imagem num cilindro compartilhado. Com base nas posições cilíndricas, aplicamos um mecanismo explícito de atenção espacial, com ponderação não aprendida, que agrega *features* entre imagens de acordo com as suas distâncias no cilindro. Os *features* modulados são então decodificados num mapa de profundidade para cada vista. Avaliado nos conjuntos de dados DDAD e nuScenes, o nosso método melhora tanto a consistência da profundidade entre vistas como a precisão geral da profundidade em comparação com as abordagens state-of-the-art. O código está disponível em https://abualhanud.github.io/CylinderDepthPage.
English
Self-supervised surround-view depth estimation enables dense, low-cost 3D perception with a 360° field of view from multiple minimally overlapping images. Yet, most existing methods suffer from depth estimates that are inconsistent across overlapping images. To address this limitation, we propose a novel geometry-guided method for calibrated, time-synchronized multi-camera rigs that predicts dense metric depth. Our approach targets two main sources of inconsistency: the limited receptive field in border regions of single-image depth estimation, and the difficulty of correspondence matching. We mitigate these two issues by extending the receptive field across views and restricting cross-view attention to a small neighborhood. To this end, we establish the neighborhood relationships between images by mapping the image-specific feature positions onto a shared cylinder. Based on the cylindrical positions, we apply an explicit spatial attention mechanism, with non-learned weighting, that aggregates features across images according to their distances on the cylinder. The modulated features are then decoded into a depth map for each view. Evaluated on the DDAD and nuScenes datasets, our method improves both cross-view depth consistency and overall depth accuracy compared with state-of-the-art approaches. Code is available at https://abualhanud.github.io/CylinderDepthPage.