DA^2: Profundidad en Cualquier Dirección
DA^2: Depth Anything in Any Direction
September 30, 2025
Autores: Haodong Li, Wangguangdong Zheng, Jing He, Yuhao Liu, Xin Lin, Xin Yang, Ying-Cong Chen, Chunchao Guo
cs.AI
Resumen
Panorama tiene un campo de visión completo (360^circtimes180^circ), ofreciendo una descripción visual más completa que las imágenes en perspectiva. Gracias a esta característica, la estimación de profundidad panorámica está ganando cada vez más atención en la visión 3D. Sin embargo, debido a la escasez de datos panorámicos, los métodos anteriores a menudo se limitan a entornos de dominio específico, lo que resulta en una generalización pobre en escenarios de zero-shot. Además, debido a las distorsiones esféricas inherentes a los panoramas, muchos enfoques dependen de la división en perspectiva (por ejemplo, cubemaps), lo que conduce a una eficiencia subóptima. Para abordar estos desafíos, proponemos DA^{2}: Depth Anything in Any Direction, un estimador de profundidad panorámico preciso, generalizable en zero-shot y completamente end-to-end. Específicamente, para escalar los datos panorámicos, introducimos un motor de curación de datos para generar datos de profundidad panorámica de alta calidad a partir de perspectivas, y creamos sim543K pares RGB-profundidad panorámicos, llevando el total a sim607K. Para mitigar aún más las distorsiones esféricas, presentamos SphereViT, que aprovecha explícitamente las coordenadas esféricas para reforzar la consistencia geométrica esférica en las características de las imágenes panorámicas, obteniendo un mejor rendimiento. Un benchmark exhaustivo en múltiples conjuntos de datos demuestra claramente el rendimiento SoTA de DA^{2}, con una mejora promedio del 38% en AbsRel sobre el baseline zero-shot más fuerte. Sorprendentemente, DA^{2} incluso supera a los métodos anteriores de dominio específico, destacando su superior generalización en zero-shot. Además, como una solución end-to-end, DA^{2} exhibe una eficiencia mucho mayor en comparación con los enfoques basados en fusión. Tanto el código como los datos panorámicos curados serán liberados. Página del proyecto: https://depth-any-in-any-dir.github.io/.
English
Panorama has a full FoV (360^circtimes180^circ), offering a more
complete visual description than perspective images. Thanks to this
characteristic, panoramic depth estimation is gaining increasing traction in 3D
vision. However, due to the scarcity of panoramic data, previous methods are
often restricted to in-domain settings, leading to poor zero-shot
generalization. Furthermore, due to the spherical distortions inherent in
panoramas, many approaches rely on perspective splitting (e.g., cubemaps),
which leads to suboptimal efficiency. To address these challenges, we propose
DA^{2}: Depth Anything in
Any Direction, an accurate, zero-shot generalizable, and
fully end-to-end panoramic depth estimator. Specifically, for scaling up
panoramic data, we introduce a data curation engine for generating high-quality
panoramic depth data from perspective, and create sim543K panoramic
RGB-depth pairs, bringing the total to sim607K. To further mitigate the
spherical distortions, we present SphereViT, which explicitly leverages
spherical coordinates to enforce the spherical geometric consistency in
panoramic image features, yielding improved performance. A comprehensive
benchmark on multiple datasets clearly demonstrates DA^{2}'s SoTA
performance, with an average 38% improvement on AbsRel over the strongest
zero-shot baseline. Surprisingly, DA^{2} even outperforms prior in-domain
methods, highlighting its superior zero-shot generalization. Moreover, as an
end-to-end solution, DA^{2} exhibits much higher efficiency over fusion-based
approaches. Both the code and the curated panoramic data will be released.
Project page: https://depth-any-in-any-dir.github.io/.