ChatPaper.aiChatPaper

Zylindertiefe: Zylindrische räumliche Aufmerksamkeit für multiview-konsistente selbstüberwachte Umgebungstiefenschätzung

CylinderDepth: Cylindrical Spatial Attention for Multi-View Consistent Self-Supervised Surround Depth Estimation

April 8, 2026
Autoren: Samer Abualhanud, Christian Grannemann, Max Mehltretter
cs.AI

Zusammenfassung

Selbstüberwachte Tiefenschätzung mit Rundumsicht ermöglicht eine dichte, kostengünstige 3D-Erfassung mit einem 360°-Sichtfeld aus mehreren minimal überlappenden Bildern. Dennoch leiden die meisten bestehenden Methoden unter Tiefenschätzungen, die in überlappenden Bildern inkonsistent sind. Um diese Einschränkung zu adressieren, schlagen wir eine neuartige geometriegeführte Methode für kalibrierte, zeitsynchronisierte Multi-Kamera-Rigs vor, die dichte metrische Tiefe vorhersagt. Unser Ansatz zielt auf zwei Hauptquellen der Inkonsistenz ab: das begrenzte rezeptive Feld in Randbereichen der Einzelbild-Tiefenschätzung und die Schwierigkeit der Korrespondenzsuche. Wir mildern diese beiden Probleme, indem wir das rezeptive Feld über die Ansichten hinweg erweitern und die Aufmerksamkeit zwischen den Ansichten auf eine kleine Nachbarschaft beschränken. Zu diesem Zweck stellen wir die Nachbarschaftsbeziehungen zwischen den Bildern her, indem wir die bildspezifischen Merkmalspositionen auf einen gemeinsamen Zylinder abbilden. Basierend auf den zylindrischen Positionen wenden wir einen expliziten räumlichen Aufmerksamkeitsmechanismus mit nicht gelernten Gewichtungen an, der Merkmale über Bilder hinweg entsprechend ihrer Abstände auf dem Zylinder aggregiert. Die modulierten Merkmale werden dann für jede Ansicht in eine Tiefenkarte decodiert. Auswertungen auf den DDAD- und nuScenes-Datensätzen zeigen, dass unsere Methode sowohl die Tiefenkonsistenz zwischen den Ansichten als auch die allgemeine Tiefengenauigkeit im Vergleich zu state-of-the-art Ansätzen verbessert. Code ist verfügbar unter https://abualhanud.github.io/CylinderDepthPage.
English
Self-supervised surround-view depth estimation enables dense, low-cost 3D perception with a 360° field of view from multiple minimally overlapping images. Yet, most existing methods suffer from depth estimates that are inconsistent across overlapping images. To address this limitation, we propose a novel geometry-guided method for calibrated, time-synchronized multi-camera rigs that predicts dense metric depth. Our approach targets two main sources of inconsistency: the limited receptive field in border regions of single-image depth estimation, and the difficulty of correspondence matching. We mitigate these two issues by extending the receptive field across views and restricting cross-view attention to a small neighborhood. To this end, we establish the neighborhood relationships between images by mapping the image-specific feature positions onto a shared cylinder. Based on the cylindrical positions, we apply an explicit spatial attention mechanism, with non-learned weighting, that aggregates features across images according to their distances on the cylinder. The modulated features are then decoded into a depth map for each view. Evaluated on the DDAD and nuScenes datasets, our method improves both cross-view depth consistency and overall depth accuracy compared with state-of-the-art approaches. Code is available at https://abualhanud.github.io/CylinderDepthPage.
PDF01April 11, 2026