단일 단계에서 깊이 완성을 위한 Depth Anything 프롬프팅
Any to Full: Prompting Depth Anything for Depth Completion in One Stage
March 5, 2026
저자: Zhiyuan Zhou, Ruofeng Liu, Taichi Liu, Weijian Zuo, Shanshan Wang, Zhiqing Hong, Desheng Zhang
cs.AI
초록
정확하고 조밀한 깊이 추정은 로봇 인식에 있어 핵심적이지만, 상용 센서는 하드웨어 한계로 인해 흔히 희소하거나 불완전한 측정값만을 제공합니다. 기존 RGB-D 융합 깊이 완성 방법은 훈련 RGB 분포와 특정 깊이 패턴에 결합된 사전 지식을 학습하므로 도메인 일반화와 다양한 깊이 패턴에 대한 강건성이 제한됩니다. 최근 연구에서는 단안 깊이 추정(MDE) 모델을 활용하여 도메인 일반적인 기하학적 사전 지식을 도입하려 하지만, 명시적 상대-절대 정렬에 의존하는 현재의 2단계 통합 전략은 추가 계산을 필요로 하고 구조적 왜곡을 유발합니다. 이를 위해 우리는 사전 훈련된 MDE 모델의 스케일 프롬프트 적응으로 완성 문제를 재정의하는 1단계, 도메인 일반적, 패턴 불가지론적 프레임워크인 Any2Full을 제안합니다. 다양한 깊이 희소성 수준과 불규칙한 공간 분포를 해결하기 위해 우리는 스케일 인식 프롬프트 인코더를 설계했습니다. 이는 희소 입력에서 스케일 단서를 통합된 스케일 프롬프트로 추출하여 MDE 모델이 기하학적 사전 지식을 유지하면서 전역적으로 스케일 일관성 있는 예측을 하도록 유도합니다. 폭넓은 실험을 통해 Any2Full이 우수한 강건성과 효율성을 달성함을 입증했습니다. 평균 AbsREL에서 OMNI-DC보다 32.2% 우수한 성능을 보였으며, 동일한 MDE 백본을 사용한 PriorDA 대비 1.4배의 속도 향상을 제공하여 범용 깊이 완성을 위한 새로운 패러다임을 정립했습니다. 코드와 체크포인트는 https://github.com/zhiyuandaily/Any2Full에서 확인할 수 있습니다.
English
Accurate, dense depth estimation is crucial for robotic perception, but commodity sensors often yield sparse or incomplete measurements due to hardware limitations. Existing RGBD-fused depth completion methods learn priors jointly conditioned on training RGB distribution and specific depth patterns, limiting domain generalization and robustness to various depth patterns. Recent efforts leverage monocular depth estimation (MDE) models to introduce domain-general geometric priors, but current two-stage integration strategies relying on explicit relative-to-metric alignment incur additional computation and introduce structured distortions. To this end, we present Any2Full, a one-stage, domain-general, and pattern-agnostic framework that reformulates completion as a scale-prompting adaptation of a pretrained MDE model. To address varying depth sparsity levels and irregular spatial distributions, we design a Scale-Aware Prompt Encoder. It distills scale cues from sparse inputs into unified scale prompts, guiding the MDE model toward globally scale-consistent predictions while preserving its geometric priors. Extensive experiments demonstrate that Any2Full achieves superior robustness and efficiency. It outperforms OMNI-DC by 32.2\% in average AbsREL and delivers a 1.4times speedup over PriorDA with the same MDE backbone, establishing a new paradigm for universal depth completion. Codes and checkpoints are available at https://github.com/zhiyuandaily/Any2Full.