ChatPaper.aiChatPaper

DA^2: Tiefenschätzung in beliebiger Richtung

DA^2: Depth Anything in Any Direction

September 30, 2025
papers.authors: Haodong Li, Wangguangdong Zheng, Jing He, Yuhao Liu, Xin Lin, Xin Yang, Ying-Cong Chen, Chunchao Guo
cs.AI

papers.abstract

Panorama verfügt über ein vollständiges Sichtfeld (360°×180°), was eine umfassendere visuelle Beschreibung bietet als perspektivische Bilder. Dank dieser Eigenschaft gewinnt die Panorama-Tiefenschätzung zunehmend an Bedeutung in der 3D-Vision. Aufgrund der Knappheit von Panorama-Daten sind frühere Methoden jedoch oft auf In-Domain-Szenarien beschränkt, was zu einer schlechten Zero-Shot-Generalisierung führt. Darüber hinaus verlassen sich viele Ansätze aufgrund der sphärischen Verzerrungen, die Panoramen inhärent sind, auf perspektivische Aufteilung (z. B. Cubemaps), was zu suboptimaler Effizienz führt. Um diese Herausforderungen zu bewältigen, schlagen wir DA²: Depth Anything in Any Direction vor, einen präzisen, zero-shot-generalisierbaren und vollständig end-to-end Panorama-Tiefenschätzer. Speziell zur Skalierung von Panorama-Daten führen wir eine Datenkuratierungs-Engine ein, die hochwertige Panorama-Tiefendaten aus Perspektiven generiert, und erstellen sim543K Panorama-RGB-Tiefenpaare, was die Gesamtzahl auf sim607K erhöht. Um die sphärischen Verzerrungen weiter zu mildern, präsentieren wir SphereViT, das explizit sphärische Koordinaten nutzt, um die sphärische geometrische Konsistenz in Panorama-Bildmerkmalen zu erzwingen, was zu einer verbesserten Leistung führt. Ein umfassender Benchmark auf mehreren Datensätzen zeigt deutlich die State-of-the-Art-Leistung von DA², mit einer durchschnittlichen Verbesserung von 38 % bei AbsRel gegenüber der stärksten Zero-Shot-Baseline. Überraschenderweise übertrifft DA² sogar frühere In-Domain-Methoden, was seine überlegene Zero-Shot-Generalisierung unterstreicht. Darüber hinaus zeigt DA² als end-to-end-Lösung eine deutlich höhere Effizienz gegenüber fusionbasierten Ansätzen. Sowohl der Code als auch die kuratierten Panorama-Daten werden veröffentlicht. Projektseite: https://depth-any-in-any-dir.github.io/.
English
Panorama has a full FoV (360^circtimes180^circ), offering a more complete visual description than perspective images. Thanks to this characteristic, panoramic depth estimation is gaining increasing traction in 3D vision. However, due to the scarcity of panoramic data, previous methods are often restricted to in-domain settings, leading to poor zero-shot generalization. Furthermore, due to the spherical distortions inherent in panoramas, many approaches rely on perspective splitting (e.g., cubemaps), which leads to suboptimal efficiency. To address these challenges, we propose DA^{2}: Depth Anything in Any Direction, an accurate, zero-shot generalizable, and fully end-to-end panoramic depth estimator. Specifically, for scaling up panoramic data, we introduce a data curation engine for generating high-quality panoramic depth data from perspective, and create sim543K panoramic RGB-depth pairs, bringing the total to sim607K. To further mitigate the spherical distortions, we present SphereViT, which explicitly leverages spherical coordinates to enforce the spherical geometric consistency in panoramic image features, yielding improved performance. A comprehensive benchmark on multiple datasets clearly demonstrates DA^{2}'s SoTA performance, with an average 38% improvement on AbsRel over the strongest zero-shot baseline. Surprisingly, DA^{2} even outperforms prior in-domain methods, highlighting its superior zero-shot generalization. Moreover, as an end-to-end solution, DA^{2} exhibits much higher efficiency over fusion-based approaches. Both the code and the curated panoramic data will be released. Project page: https://depth-any-in-any-dir.github.io/.
PDF111October 1, 2025