DA^2: Profondità Ovunque in Qualsiasi Direzione
DA^2: Depth Anything in Any Direction
September 30, 2025
Autori: Haodong Li, Wangguangdong Zheng, Jing He, Yuhao Liu, Xin Lin, Xin Yang, Ying-Cong Chen, Chunchao Guo
cs.AI
Abstract
Panorama ha un campo visivo completo (360^circtimes180^circ), offrendo una descrizione visiva più completa rispetto alle immagini prospettiche. Grazie a questa caratteristica, la stima della profondità panoramica sta guadagnando sempre più attenzione nella visione 3D. Tuttavia, a causa della scarsità di dati panoramici, i metodi precedenti sono spesso limitati a contesti in-domain, portando a una scarsa generalizzazione zero-shot. Inoltre, a causa delle distorsioni sferiche intrinseche nei panorami, molti approcci si basano sulla suddivisione prospettica (ad esempio, cubemap), che porta a un'efficienza subottimale. Per affrontare queste sfide, proponiamo DA^{2}: Depth Anything in Any Direction, un stimatore di profondità panoramico accurato, generalizzabile zero-shot e completamente end-to-end. Nello specifico, per aumentare i dati panoramici, introduciamo un motore di curatela dei dati per generare dati di profondità panoramici di alta qualità a partire da immagini prospettiche, creando sim543K coppie RGB-profondità panoramiche, portando il totale a sim607K. Per mitigare ulteriormente le distorsioni sferiche, presentiamo SphereViT, che sfrutta esplicitamente le coordinate sferiche per rafforzare la coerenza geometrica sferica nelle caratteristiche delle immagini panoramiche, ottenendo prestazioni migliorate. Un benchmark completo su più dataset dimostra chiaramente le prestazioni SoTA di DA^{2}, con un miglioramento medio del 38% su AbsRel rispetto al più forte baseline zero-shot. Sorprendentemente, DA^{2} supera persino i precedenti metodi in-domain, evidenziando la sua superiore generalizzazione zero-shot. Inoltre, come soluzione end-to-end, DA^{2} mostra un'efficienza molto maggiore rispetto agli approcci basati su fusione. Sia il codice che i dati panoramici curati saranno rilasciati. Pagina del progetto: https://depth-any-in-any-dir.github.io/.
English
Panorama has a full FoV (360^circtimes180^circ), offering a more
complete visual description than perspective images. Thanks to this
characteristic, panoramic depth estimation is gaining increasing traction in 3D
vision. However, due to the scarcity of panoramic data, previous methods are
often restricted to in-domain settings, leading to poor zero-shot
generalization. Furthermore, due to the spherical distortions inherent in
panoramas, many approaches rely on perspective splitting (e.g., cubemaps),
which leads to suboptimal efficiency. To address these challenges, we propose
DA^{2}: Depth Anything in
Any Direction, an accurate, zero-shot generalizable, and
fully end-to-end panoramic depth estimator. Specifically, for scaling up
panoramic data, we introduce a data curation engine for generating high-quality
panoramic depth data from perspective, and create sim543K panoramic
RGB-depth pairs, bringing the total to sim607K. To further mitigate the
spherical distortions, we present SphereViT, which explicitly leverages
spherical coordinates to enforce the spherical geometric consistency in
panoramic image features, yielding improved performance. A comprehensive
benchmark on multiple datasets clearly demonstrates DA^{2}'s SoTA
performance, with an average 38% improvement on AbsRel over the strongest
zero-shot baseline. Surprisingly, DA^{2} even outperforms prior in-domain
methods, highlighting its superior zero-shot generalization. Moreover, as an
end-to-end solution, DA^{2} exhibits much higher efficiency over fusion-based
approaches. Both the code and the curated panoramic data will be released.
Project page: https://depth-any-in-any-dir.github.io/.