DA^2: Tiefenschätzung in beliebiger Richtung
DA^2: Depth Anything in Any Direction
September 30, 2025
papers.authors: Haodong Li, Wangguangdong Zheng, Jing He, Yuhao Liu, Xin Lin, Xin Yang, Ying-Cong Chen, Chunchao Guo
cs.AI
papers.abstract
Panorama verfügt über ein vollständiges Sichtfeld (360°×180°), was eine umfassendere visuelle Beschreibung bietet als perspektivische Bilder. Dank dieser Eigenschaft gewinnt die Panorama-Tiefenschätzung zunehmend an Bedeutung in der 3D-Vision. Aufgrund der Knappheit von Panorama-Daten sind frühere Methoden jedoch oft auf In-Domain-Szenarien beschränkt, was zu einer schlechten Zero-Shot-Generalisierung führt. Darüber hinaus verlassen sich viele Ansätze aufgrund der sphärischen Verzerrungen, die Panoramen inhärent sind, auf perspektivische Aufteilung (z. B. Cubemaps), was zu suboptimaler Effizienz führt. Um diese Herausforderungen zu bewältigen, schlagen wir DA²: Depth Anything in Any Direction vor, einen präzisen, zero-shot-generalisierbaren und vollständig end-to-end Panorama-Tiefenschätzer. Speziell zur Skalierung von Panorama-Daten führen wir eine Datenkuratierungs-Engine ein, die hochwertige Panorama-Tiefendaten aus Perspektiven generiert, und erstellen sim543K Panorama-RGB-Tiefenpaare, was die Gesamtzahl auf sim607K erhöht. Um die sphärischen Verzerrungen weiter zu mildern, präsentieren wir SphereViT, das explizit sphärische Koordinaten nutzt, um die sphärische geometrische Konsistenz in Panorama-Bildmerkmalen zu erzwingen, was zu einer verbesserten Leistung führt. Ein umfassender Benchmark auf mehreren Datensätzen zeigt deutlich die State-of-the-Art-Leistung von DA², mit einer durchschnittlichen Verbesserung von 38 % bei AbsRel gegenüber der stärksten Zero-Shot-Baseline. Überraschenderweise übertrifft DA² sogar frühere In-Domain-Methoden, was seine überlegene Zero-Shot-Generalisierung unterstreicht. Darüber hinaus zeigt DA² als end-to-end-Lösung eine deutlich höhere Effizienz gegenüber fusionbasierten Ansätzen. Sowohl der Code als auch die kuratierten Panorama-Daten werden veröffentlicht. Projektseite: https://depth-any-in-any-dir.github.io/.
English
Panorama has a full FoV (360^circtimes180^circ), offering a more
complete visual description than perspective images. Thanks to this
characteristic, panoramic depth estimation is gaining increasing traction in 3D
vision. However, due to the scarcity of panoramic data, previous methods are
often restricted to in-domain settings, leading to poor zero-shot
generalization. Furthermore, due to the spherical distortions inherent in
panoramas, many approaches rely on perspective splitting (e.g., cubemaps),
which leads to suboptimal efficiency. To address these challenges, we propose
DA^{2}: Depth Anything in
Any Direction, an accurate, zero-shot generalizable, and
fully end-to-end panoramic depth estimator. Specifically, for scaling up
panoramic data, we introduce a data curation engine for generating high-quality
panoramic depth data from perspective, and create sim543K panoramic
RGB-depth pairs, bringing the total to sim607K. To further mitigate the
spherical distortions, we present SphereViT, which explicitly leverages
spherical coordinates to enforce the spherical geometric consistency in
panoramic image features, yielding improved performance. A comprehensive
benchmark on multiple datasets clearly demonstrates DA^{2}'s SoTA
performance, with an average 38% improvement on AbsRel over the strongest
zero-shot baseline. Surprisingly, DA^{2} even outperforms prior in-domain
methods, highlighting its superior zero-shot generalization. Moreover, as an
end-to-end solution, DA^{2} exhibits much higher efficiency over fusion-based
approaches. Both the code and the curated panoramic data will be released.
Project page: https://depth-any-in-any-dir.github.io/.