ChatPaper.aiChatPaper

CylinderDepth : Attention Spatiale Cylindrique pour l'Estimation Autosupervisée Cohérente de la Profondeur Périphérique en Vue Multiples

CylinderDepth: Cylindrical Spatial Attention for Multi-View Consistent Self-Supervised Surround Depth Estimation

April 8, 2026
Auteurs: Samer Abualhanud, Christian Grannemann, Max Mehltretter
cs.AI

Résumé

L'estimation de profondeur autosupervisée en vue panoramique permet une perception 3D dense et peu coûteuse avec un champ de vision à 360° à partir de plusieurs images à chevauchement minimal. Cependant, la plupart des méthodes existantes produisent des estimations de profondeur incohérentes entre les images qui se chevauchent. Pour résoudre cette limitation, nous proposons une nouvelle méthode guidée par la géométrie pour les rigs multi-caméras étalonnés et synchronisés en temps, qui prédit une profondeur métrique dense. Notre approche cible deux sources principales d'incohérence : le champ réceptif limité dans les régions bordure de l'estimation de profondeur monoculaire, et la difficulté de l'appariement des correspondances. Nous atténuons ces deux problèmes en étendant le champ réceptif entre les vues et en restreignant l'attention inter-vue à un petit voisinage. Pour ce faire, nous établissons les relations de voisinage entre les images en projetant les positions des caractéristiques spécifiques à chaque image sur un cylindre partagé. Sur la base des positions cylindriques, nous appliquons un mécanisme d'attention spatiale explicite, avec une pondération non apprise, qui agrège les caractéristiques entre les images selon leurs distances sur le cylindre. Les caractéristiques modulées sont ensuite décodées en une carte de profondeur pour chaque vue. Évaluée sur les jeux de données DDAD et nuScenes, notre méthode améliore à la fois la cohérence de la profondeur inter-vue et la précision globale de la profondeur par rapport aux approches de l'état de l'art. Le code est disponible à l'adresse https://abualhanud.github.io/CylinderDepthPage.
English
Self-supervised surround-view depth estimation enables dense, low-cost 3D perception with a 360° field of view from multiple minimally overlapping images. Yet, most existing methods suffer from depth estimates that are inconsistent across overlapping images. To address this limitation, we propose a novel geometry-guided method for calibrated, time-synchronized multi-camera rigs that predicts dense metric depth. Our approach targets two main sources of inconsistency: the limited receptive field in border regions of single-image depth estimation, and the difficulty of correspondence matching. We mitigate these two issues by extending the receptive field across views and restricting cross-view attention to a small neighborhood. To this end, we establish the neighborhood relationships between images by mapping the image-specific feature positions onto a shared cylinder. Based on the cylindrical positions, we apply an explicit spatial attention mechanism, with non-learned weighting, that aggregates features across images according to their distances on the cylinder. The modulated features are then decoded into a depth map for each view. Evaluated on the DDAD and nuScenes datasets, our method improves both cross-view depth consistency and overall depth accuracy compared with state-of-the-art approaches. Code is available at https://abualhanud.github.io/CylinderDepthPage.
PDF01April 11, 2026