DA^2 : Profondeur en toute direction
DA^2: Depth Anything in Any Direction
September 30, 2025
papers.authors: Haodong Li, Wangguangdong Zheng, Jing He, Yuhao Liu, Xin Lin, Xin Yang, Ying-Cong Chen, Chunchao Guo
cs.AI
papers.abstract
Panorama dispose d'un champ de vision complet (360°×180°), offrant une description visuelle plus complète que les images en perspective. Grâce à cette caractéristique, l'estimation de profondeur panoramique gagne en popularité dans le domaine de la vision 3D. Cependant, en raison de la rareté des données panoramiques, les méthodes précédentes sont souvent limitées à des cadres intra-domaines, ce qui entraîne une mauvaise généralisation zero-shot. De plus, en raison des distorsions sphériques inhérentes aux panoramas, de nombreuses approches reposent sur un découpage en perspective (par exemple, les cubemaps), ce qui conduit à une efficacité sous-optimale. Pour relever ces défis, nous proposons DA² : Depth Anything in Any Direction, un estimateur de profondeur panoramique précis, généralisable zero-shot et entièrement end-to-end. Plus précisément, pour augmenter les données panoramiques, nous introduisons un moteur de curation de données pour générer des données de profondeur panoramique de haute qualité à partir de perspectives, et créons environ 543 000 paires RGB-profondeur panoramiques, portant le total à environ 607 000. Pour atténuer davantage les distorsions sphériques, nous présentons SphereViT, qui exploite explicitement les coordonnées sphériques pour renforcer la cohérence géométrique sphérique dans les caractéristiques des images panoramiques, améliorant ainsi les performances. Un benchmark complet sur plusieurs ensembles de données démontre clairement les performances de pointe de DA², avec une amélioration moyenne de 38 % sur AbsRel par rapport au meilleur baseline zero-shot. Étonnamment, DA² surpasse même les méthodes intra-domaines précédentes, mettant en évidence sa supériorité en généralisation zero-shot. De plus, en tant que solution end-to-end, DA² présente une efficacité bien supérieure aux approches basées sur la fusion. Le code ainsi que les données panoramiques curatées seront publiés. Page du projet : https://depth-any-in-any-dir.github.io/.
English
Panorama has a full FoV (360^circtimes180^circ), offering a more
complete visual description than perspective images. Thanks to this
characteristic, panoramic depth estimation is gaining increasing traction in 3D
vision. However, due to the scarcity of panoramic data, previous methods are
often restricted to in-domain settings, leading to poor zero-shot
generalization. Furthermore, due to the spherical distortions inherent in
panoramas, many approaches rely on perspective splitting (e.g., cubemaps),
which leads to suboptimal efficiency. To address these challenges, we propose
DA^{2}: Depth Anything in
Any Direction, an accurate, zero-shot generalizable, and
fully end-to-end panoramic depth estimator. Specifically, for scaling up
panoramic data, we introduce a data curation engine for generating high-quality
panoramic depth data from perspective, and create sim543K panoramic
RGB-depth pairs, bringing the total to sim607K. To further mitigate the
spherical distortions, we present SphereViT, which explicitly leverages
spherical coordinates to enforce the spherical geometric consistency in
panoramic image features, yielding improved performance. A comprehensive
benchmark on multiple datasets clearly demonstrates DA^{2}'s SoTA
performance, with an average 38% improvement on AbsRel over the strongest
zero-shot baseline. Surprisingly, DA^{2} even outperforms prior in-domain
methods, highlighting its superior zero-shot generalization. Moreover, as an
end-to-end solution, DA^{2} exhibits much higher efficiency over fusion-based
approaches. Both the code and the curated panoramic data will be released.
Project page: https://depth-any-in-any-dir.github.io/.