ChatPaper.aiChatPaper

DA^2: Profundidad en Cualquier Dirección

DA^2: Depth Anything in Any Direction

September 30, 2025
Autores: Haodong Li, Wangguangdong Zheng, Jing He, Yuhao Liu, Xin Lin, Xin Yang, Ying-Cong Chen, Chunchao Guo
cs.AI

Resumen

Panorama tiene un campo de visión completo (360^circtimes180^circ), ofreciendo una descripción visual más completa que las imágenes en perspectiva. Gracias a esta característica, la estimación de profundidad panorámica está ganando cada vez más atención en la visión 3D. Sin embargo, debido a la escasez de datos panorámicos, los métodos anteriores a menudo se limitan a entornos de dominio específico, lo que resulta en una generalización pobre en escenarios de zero-shot. Además, debido a las distorsiones esféricas inherentes a los panoramas, muchos enfoques dependen de la división en perspectiva (por ejemplo, cubemaps), lo que conduce a una eficiencia subóptima. Para abordar estos desafíos, proponemos DA^{2}: Depth Anything in Any Direction, un estimador de profundidad panorámico preciso, generalizable en zero-shot y completamente end-to-end. Específicamente, para escalar los datos panorámicos, introducimos un motor de curación de datos para generar datos de profundidad panorámica de alta calidad a partir de perspectivas, y creamos sim543K pares RGB-profundidad panorámicos, llevando el total a sim607K. Para mitigar aún más las distorsiones esféricas, presentamos SphereViT, que aprovecha explícitamente las coordenadas esféricas para reforzar la consistencia geométrica esférica en las características de las imágenes panorámicas, obteniendo un mejor rendimiento. Un benchmark exhaustivo en múltiples conjuntos de datos demuestra claramente el rendimiento SoTA de DA^{2}, con una mejora promedio del 38% en AbsRel sobre el baseline zero-shot más fuerte. Sorprendentemente, DA^{2} incluso supera a los métodos anteriores de dominio específico, destacando su superior generalización en zero-shot. Además, como una solución end-to-end, DA^{2} exhibe una eficiencia mucho mayor en comparación con los enfoques basados en fusión. Tanto el código como los datos panorámicos curados serán liberados. Página del proyecto: https://depth-any-in-any-dir.github.io/.
English
Panorama has a full FoV (360^circtimes180^circ), offering a more complete visual description than perspective images. Thanks to this characteristic, panoramic depth estimation is gaining increasing traction in 3D vision. However, due to the scarcity of panoramic data, previous methods are often restricted to in-domain settings, leading to poor zero-shot generalization. Furthermore, due to the spherical distortions inherent in panoramas, many approaches rely on perspective splitting (e.g., cubemaps), which leads to suboptimal efficiency. To address these challenges, we propose DA^{2}: Depth Anything in Any Direction, an accurate, zero-shot generalizable, and fully end-to-end panoramic depth estimator. Specifically, for scaling up panoramic data, we introduce a data curation engine for generating high-quality panoramic depth data from perspective, and create sim543K panoramic RGB-depth pairs, bringing the total to sim607K. To further mitigate the spherical distortions, we present SphereViT, which explicitly leverages spherical coordinates to enforce the spherical geometric consistency in panoramic image features, yielding improved performance. A comprehensive benchmark on multiple datasets clearly demonstrates DA^{2}'s SoTA performance, with an average 38% improvement on AbsRel over the strongest zero-shot baseline. Surprisingly, DA^{2} even outperforms prior in-domain methods, highlighting its superior zero-shot generalization. Moreover, as an end-to-end solution, DA^{2} exhibits much higher efficiency over fusion-based approaches. Both the code and the curated panoramic data will be released. Project page: https://depth-any-in-any-dir.github.io/.
PDF111October 1, 2025