ChatPaper.aiChatPaper

DA^2: 모든 방향에서의 깊이 추정

DA^2: Depth Anything in Any Direction

September 30, 2025
저자: Haodong Li, Wangguangdong Zheng, Jing He, Yuhao Liu, Xin Lin, Xin Yang, Ying-Cong Chen, Chunchao Guo
cs.AI

초록

Panorama는 완전한 시야각(360^circ×180^circ)을 가지며, 이는 원근 이미지보다 더 완전한 시각적 묘사를 제공합니다. 이러한 특성 덕분에 파노라마 깊이 추정은 3D 비전 분야에서 점점 더 주목받고 있습니다. 그러나 파노라마 데이터의 부족으로 인해 기존 방법들은 주로 도메인 내 설정에 제한되어 있어 제로샷 일반화 성능이 떨어지는 문제가 있었습니다. 또한, 파노라마에 내재된 구형 왜곡으로 인해 많은 접근법들이 큐브맵과 같은 원근 분할에 의존하며, 이는 효율성을 저하시키는 원인이 되었습니다. 이러한 문제를 해결하기 위해, 우리는 DA^{2}: Depth Anything in Any Direction를 제안합니다. 이는 정확하고 제로샷 일반화가 가능하며 완전한 엔드투엔드 파노라마 깊이 추정기입니다. 구체적으로, 파노라마 데이터를 확장하기 위해 원근 이미지에서 고품질 파노라마 깊이 데이터를 생성하는 데이터 큐레이션 엔진을 도입하고, sim543K개의 파노라마 RGB-깊이 쌍을 생성하여 총 sim607K개의 데이터를 확보했습니다. 또한, 구형 왜곡을 더욱 완화하기 위해 SphereViT를 제안합니다. 이는 구형 좌표를 명시적으로 활용하여 파노라마 이미지 특징에서 구형 기하학적 일관성을 강화함으로써 성능을 향상시킵니다. 여러 데이터셋에 대한 포괄적인 벤치마크는 DA^{2}의 최첨단 성능을 명확히 보여주며, 가장 강력한 제로샷 기준선 대비 AbsRel에서 평균 38%의 개선을 달성했습니다. 놀랍게도, DA^{2}는 기존 도메인 내 방법들까지도 능가하며, 그 우수한 제로샷 일반화 능력을 입증했습니다. 또한, 엔드투엔드 솔루션으로서 DA^{2}는 퓨전 기반 접근법보다 훨씬 더 높은 효율성을 보여줍니다. 코드와 큐레이션된 파노라마 데이터는 공개될 예정입니다. 프로젝트 페이지: https://depth-any-in-any-dir.github.io/.
English
Panorama has a full FoV (360^circtimes180^circ), offering a more complete visual description than perspective images. Thanks to this characteristic, panoramic depth estimation is gaining increasing traction in 3D vision. However, due to the scarcity of panoramic data, previous methods are often restricted to in-domain settings, leading to poor zero-shot generalization. Furthermore, due to the spherical distortions inherent in panoramas, many approaches rely on perspective splitting (e.g., cubemaps), which leads to suboptimal efficiency. To address these challenges, we propose DA^{2}: Depth Anything in Any Direction, an accurate, zero-shot generalizable, and fully end-to-end panoramic depth estimator. Specifically, for scaling up panoramic data, we introduce a data curation engine for generating high-quality panoramic depth data from perspective, and create sim543K panoramic RGB-depth pairs, bringing the total to sim607K. To further mitigate the spherical distortions, we present SphereViT, which explicitly leverages spherical coordinates to enforce the spherical geometric consistency in panoramic image features, yielding improved performance. A comprehensive benchmark on multiple datasets clearly demonstrates DA^{2}'s SoTA performance, with an average 38% improvement on AbsRel over the strongest zero-shot baseline. Surprisingly, DA^{2} even outperforms prior in-domain methods, highlighting its superior zero-shot generalization. Moreover, as an end-to-end solution, DA^{2} exhibits much higher efficiency over fusion-based approaches. Both the code and the curated panoramic data will be released. Project page: https://depth-any-in-any-dir.github.io/.
PDF111October 1, 2025