DA^2: Profundidade em Qualquer Direção
DA^2: Depth Anything in Any Direction
September 30, 2025
Autores: Haodong Li, Wangguangdong Zheng, Jing He, Yuhao Liu, Xin Lin, Xin Yang, Ying-Cong Chen, Chunchao Guo
cs.AI
Resumo
O Panorama possui um FoV completo (360^circ vezes 180^circ), oferecendo uma descrição visual mais completa do que as imagens em perspectiva. Graças a essa característica, a estimativa de profundidade panorâmica está ganhando cada vez mais destaque na visão 3D. No entanto, devido à escassez de dados panorâmicos, os métodos anteriores são frequentemente restritos a configurações de domínio interno, resultando em uma generalização zero-shot ruim. Além disso, devido às distorções esféricas inerentes aos panoramas, muitas abordagens dependem de divisão em perspectiva (por exemplo, cubemaps), o que leva a uma eficiência subótima. Para enfrentar esses desafios, propomos o DA^{2}: Depth Anything in Any Direction, um estimador de profundidade panorâmico preciso, generalizável zero-shot e totalmente end-to-end. Especificamente, para ampliar os dados panorâmicos, introduzimos um mecanismo de curadoria de dados para gerar dados de profundidade panorâmica de alta qualidade a partir de perspectivas, e criamos sim543K pares RGB-profundidade panorâmicos, elevando o total para sim607K. Para mitigar ainda mais as distorções esféricas, apresentamos o SphereViT, que utiliza explicitamente coordenadas esféricas para reforçar a consistência geométrica esférica nas características das imagens panorâmicas, resultando em um desempenho aprimorado. Um benchmark abrangente em múltiplos conjuntos de dados demonstra claramente o desempenho SoTA do DA^{2}, com uma melhoria média de 38% no AbsRel em relação à linha de base zero-shot mais forte. Surpreendentemente, o DA^{2} supera até mesmo os métodos anteriores de domínio interno, destacando sua superior generalização zero-shot. Além disso, como uma solução end-to-end, o DA^{2} exibe uma eficiência muito maior em comparação com abordagens baseadas em fusão. Tanto o código quanto os dados panorâmicos curados serão liberados. Página do projeto: https://depth-any-in-any-dir.github.io/.
English
Panorama has a full FoV (360^circtimes180^circ), offering a more
complete visual description than perspective images. Thanks to this
characteristic, panoramic depth estimation is gaining increasing traction in 3D
vision. However, due to the scarcity of panoramic data, previous methods are
often restricted to in-domain settings, leading to poor zero-shot
generalization. Furthermore, due to the spherical distortions inherent in
panoramas, many approaches rely on perspective splitting (e.g., cubemaps),
which leads to suboptimal efficiency. To address these challenges, we propose
DA^{2}: Depth Anything in
Any Direction, an accurate, zero-shot generalizable, and
fully end-to-end panoramic depth estimator. Specifically, for scaling up
panoramic data, we introduce a data curation engine for generating high-quality
panoramic depth data from perspective, and create sim543K panoramic
RGB-depth pairs, bringing the total to sim607K. To further mitigate the
spherical distortions, we present SphereViT, which explicitly leverages
spherical coordinates to enforce the spherical geometric consistency in
panoramic image features, yielding improved performance. A comprehensive
benchmark on multiple datasets clearly demonstrates DA^{2}'s SoTA
performance, with an average 38% improvement on AbsRel over the strongest
zero-shot baseline. Surprisingly, DA^{2} even outperforms prior in-domain
methods, highlighting its superior zero-shot generalization. Moreover, as an
end-to-end solution, DA^{2} exhibits much higher efficiency over fusion-based
approaches. Both the code and the curated panoramic data will be released.
Project page: https://depth-any-in-any-dir.github.io/.