DA^2: 任意方向における深度推定
DA^2: Depth Anything in Any Direction
September 30, 2025
著者: Haodong Li, Wangguangdong Zheng, Jing He, Yuhao Liu, Xin Lin, Xin Yang, Ying-Cong Chen, Chunchao Guo
cs.AI
要旨
パノラマは完全な視野角(360度×180度)を有しており、透視画像よりもより完全な視覚的記述を提供します。この特性により、パノラマ深度推定は3Dビジョン分野で注目を集めつつあります。しかし、パノラマデータの不足により、従来の手法はドメイン内設定に制限されることが多く、ゼロショット汎化性能が低いという課題がありました。さらに、パノラマに内在する球面歪みのため、多くのアプローチが透視分割(例:キューブマップ)に依存しており、効率性が最適でない状況でした。これらの課題に対処するため、我々はDA^{2}:Depth Anything in Any Directionを提案します。これは、正確でゼロショット汎化可能、かつ完全なエンドツーエンドのパノラマ深度推定器です。具体的には、パノラマデータのスケールアップのために、透視画像から高品質なパノラマ深度データを生成するデータキュレーションエンジンを導入し、sim543KのパノラマRGB-深度ペアを作成し、総計をsim607Kにしました。さらに、球面歪みを軽減するため、球面座標を明示的に活用してパノラマ画像特徴の球面幾何学的整合性を強化するSphereViTを提案し、性能向上を実現しました。複数のデータセットにおける包括的なベンチマークは、DA^{2}のSoTA性能を明確に示しており、最も強力なゼロショットベースラインに対してAbsRelで平均38%の改善を達成しました。驚くべきことに、DA^{2}は従来のドメイン内手法をも上回り、その優れたゼロショット汎化性能を強調しています。さらに、エンドツーエンドソリューションとして、DA^{2}は融合ベースのアプローチよりもはるかに高い効率性を示しています。コードとキュレーションされたパノラマデータは公開予定です。プロジェクトページ:https://depth-any-in-any-dir.github.io/。
English
Panorama has a full FoV (360^circtimes180^circ), offering a more
complete visual description than perspective images. Thanks to this
characteristic, panoramic depth estimation is gaining increasing traction in 3D
vision. However, due to the scarcity of panoramic data, previous methods are
often restricted to in-domain settings, leading to poor zero-shot
generalization. Furthermore, due to the spherical distortions inherent in
panoramas, many approaches rely on perspective splitting (e.g., cubemaps),
which leads to suboptimal efficiency. To address these challenges, we propose
DA^{2}: Depth Anything in
Any Direction, an accurate, zero-shot generalizable, and
fully end-to-end panoramic depth estimator. Specifically, for scaling up
panoramic data, we introduce a data curation engine for generating high-quality
panoramic depth data from perspective, and create sim543K panoramic
RGB-depth pairs, bringing the total to sim607K. To further mitigate the
spherical distortions, we present SphereViT, which explicitly leverages
spherical coordinates to enforce the spherical geometric consistency in
panoramic image features, yielding improved performance. A comprehensive
benchmark on multiple datasets clearly demonstrates DA^{2}'s SoTA
performance, with an average 38% improvement on AbsRel over the strongest
zero-shot baseline. Surprisingly, DA^{2} even outperforms prior in-domain
methods, highlighting its superior zero-shot generalization. Moreover, as an
end-to-end solution, DA^{2} exhibits much higher efficiency over fusion-based
approaches. Both the code and the curated panoramic data will be released.
Project page: https://depth-any-in-any-dir.github.io/.