ChatPaper.aiChatPaper

AnyDepth: 누구나 쉽게 하는 깊이 추정

AnyDepth: Depth Estimation Made Easy

January 6, 2026
저자: Zeyu Ren, Zeyu Zhang, Wukai Li, Qingxiang Liu, Hao Tang
cs.AI

초록

단안 영상 깊이 추정은 2D 이미지로부터 3D 장면의 깊이 정보를 복원하는 것을 목표로 합니다. 최근 연구는 상당한 진전을 이루었으나, 대규모 데이터셋과 복잡한 디코더에 대한 의존성으로 인해 효율성과 일반화 성능이 제한되어 왔습니다. 본 논문에서는 제로샷 단안 깊이 추정을 위한 경량화 및 데이터 중심 프레임워크를 제안합니다. 먼저 고품질의 밀집 특징을 얻기 위해 시각 인코더로 DINOv3를 채택합니다. 둘째, DPT의 복잡한 구조적 한계를 해결하기 위해 컴팩트한 트랜스포머 기반 디코더인 단순 깊이 변환기(SDT)를 설계합니다. SDT는 DPT 대비 단일 경로 특징 융합 및 업샘플링 과정을 사용하여 교차 규모 특징 융합의 계산 부담을 줄이고, 매개변수 수를 약 85%~89% 감소시키면서도 더 높은 정확도를 달성합니다. 더 나아가 유해 샘플을 걸러내기 위한 품질 기반 필터링 전략을 제안하여 데이터셋 크기를 줄이면서도 전체 학습 품질을 향상시킵니다. 5개 벤치마크에서의 광범위한 실험을 통해 본 프레임워크가 정확도 면에서 DPT를 능가함을 입증합니다. 본 연구는 효율적이고 일반화 가능한 제로샷 깊이 추정을 달성하기 위해 모델 설계와 데이터 품질의 균형을 맞추는 것의 중요성을 강조합니다. 코드: https://github.com/AIGeeksGroup/AnyDepth. 웹사이트: https://aigeeksgroup.github.io/AnyDepth.
English
Monocular depth estimation aims to recover the depth information of 3D scenes from 2D images. Recent work has made significant progress, but its reliance on large-scale datasets and complex decoders has limited its efficiency and generalization ability. In this paper, we propose a lightweight and data-centric framework for zero-shot monocular depth estimation. We first adopt DINOv3 as the visual encoder to obtain high-quality dense features. Secondly, to address the inherent drawbacks of the complex structure of the DPT, we design the Simple Depth Transformer (SDT), a compact transformer-based decoder. Compared to the DPT, it uses a single-path feature fusion and upsampling process to reduce the computational overhead of cross-scale feature fusion, achieving higher accuracy while reducing the number of parameters by approximately 85%-89%. Furthermore, we propose a quality-based filtering strategy to filter out harmful samples, thereby reducing dataset size while improving overall training quality. Extensive experiments on five benchmarks demonstrate that our framework surpasses the DPT in accuracy. This work highlights the importance of balancing model design and data quality for achieving efficient and generalizable zero-shot depth estimation. Code: https://github.com/AIGeeksGroup/AnyDepth. Website: https://aigeeksgroup.github.io/AnyDepth.
PDF41January 13, 2026