어떤 사전 지식과도 결합 가능한 Depth Anything
Depth Anything with Any Prior
May 15, 2025
저자: Zehan Wang, Siyu Chen, Lihe Yang, Jialei Wang, Ziang Zhang, Hengshuang Zhao, Zhou Zhao
cs.AI
초록
본 연구는 깊이 측정에서 불완전하지만 정확한 미터법 정보와 깊이 예측에서 상대적이지만 완전한 기하학적 구조를 결합하여, 어떤 장면에 대해서도 정확하고 조밀하며 세밀한 미터법 깊이 맵을 생성하는 Prior Depth Anything 프레임워크를 제시합니다. 이를 위해, 우리는 두 가지 상호 보완적인 깊이 소스를 점진적으로 통합하는 coarse-to-fine 파이프라인을 설계했습니다. 먼저, 픽셀 수준의 미터법 정렬과 거리 인식 가중치를 도입하여 깊이 예측을 명시적으로 사용하여 다양한 미터법 사전 정보를 미리 채웁니다. 이는 사전 패턴 간의 도메인 격차를 효과적으로 좁혀 다양한 시나리오에서의 일반화를 향상시킵니다. 둘째, 깊이 사전 정보의 내재된 노이즈를 정제하기 위해 조건부 단안 깊이 추정(Monocular Depth Estimation, MDE) 모델을 개발했습니다. 정규화된 미리 채워진 사전 정보와 예측을 조건으로 하여, 이 모델은 두 가지 상호 보완적인 깊이 소스를 더욱 암묵적으로 통합합니다. 우리의 모델은 7개의 실제 데이터셋에 걸쳐 깊이 완성, 초해상도, 인페인팅 작업에서 인상적인 제로샷 일반화 능력을 보여주며, 이전의 작업별 방법을 능가하거나 동등한 성능을 달성합니다. 더 중요한 것은, 이 모델이 도전적인, 보지 못한 혼합 사전 정보에서도 잘 작동하며, 예측 모델을 전환함으로써 테스트 시간 개선을 가능하게 하여, MDE 모델의 발전과 함께 진화하면서 유연한 정확도-효율성 트레이드오프를 제공합니다.
English
This work presents Prior Depth Anything, a framework that combines incomplete
but precise metric information in depth measurement with relative but complete
geometric structures in depth prediction, generating accurate, dense, and
detailed metric depth maps for any scene. To this end, we design a
coarse-to-fine pipeline to progressively integrate the two complementary depth
sources. First, we introduce pixel-level metric alignment and distance-aware
weighting to pre-fill diverse metric priors by explicitly using depth
prediction. It effectively narrows the domain gap between prior patterns,
enhancing generalization across varying scenarios. Second, we develop a
conditioned monocular depth estimation (MDE) model to refine the inherent noise
of depth priors. By conditioning on the normalized pre-filled prior and
prediction, the model further implicitly merges the two complementary depth
sources. Our model showcases impressive zero-shot generalization across depth
completion, super-resolution, and inpainting over 7 real-world datasets,
matching or even surpassing previous task-specific methods. More importantly,
it performs well on challenging, unseen mixed priors and enables test-time
improvements by switching prediction models, providing a flexible
accuracy-efficiency trade-off while evolving with advancements in MDE models.Summary
AI-Generated Summary