MetricAnything: 잡음이 있는 이질적 소스를 활용한 메트릭 깊이 사전 학습의 확장
MetricAnything: Scaling Metric Depth Pretraining with Noisy Heterogeneous Sources
January 29, 2026
저자: Baorui Ma, Jiahui Yang, Donglin Di, Xuancheng Zhang, Jianxun Cui, Hao Li, Yan Xie, Wei Chen
cs.AI
초록
스케일링은 최근 비전 파운데이션 모델의 발전을 주도해왔지만, 이 패러다임을 메트릭 깊이 추정으로 확장하는 것은 이질적인 센서 노이즈, 카메라 의존적 편향, 그리고 노이즈가 많은 교차 출처 3D 데이터 내의 메트릭 모호성으로 인해 여전히 어려운 과제로 남아 있습니다. 우리는 수동으로 설계된 프롬프트, 카메라 특화 모델링, 또는 작업 특화 아키텍처 없이도 노이즈가 많고 다양한 3D 출처로부터 메트릭 깊이를 학습하는 간단하고 확장 가능한 프리트레인 프레임워크인 Metric Anything을 소개합니다. 우리 접근법의 핵심은 깊이 맵을 무작위로 마스킹하여 생성되는 Sparse Metric Prompt로, 이는 공간 추론을 센서 및 카메라 편향으로부터 분리하는 범용 인터페이스 역할을 합니다. 약 10,000개 카메라 모델에 걸쳐 재구성, 촬영, 렌더링된 3D 데이터로 구성된 약 2천만 개의 이미지-깊이 쌍을 사용하여, 우리는 메트릭 깊이 트랙에서 명확한 스케일링 경향을 처음으로 입증합니다. 프리트레인된 모델은 깊이 완성, 초해상도, 레이더-카메라 융합과 같은 프롬프트 기반 작업에서 탁월한 성능을 보이는 동시에, 이를 통해 추출된 프롬프트 없는 학생 모델은 단안 깊이 추정, 카메라 내재 파라미터 복원, 단일/다중 뷰 메트릭 3D 재구성 및 VLA 계획에서 최첨단 결과를 달성합니다. 또한 Metric Anything의 프리트레인된 ViT를 시각 인코더로 사용하면 다중모달 대형 언어 모델의 공간 지능 능력이 크게 향상됨을 보여줍니다. 이러한 결과는 메트릭 깊이 추정이 현대 파운데이션 모델을 주도하는 것과 동일한 스케일링 법칙의 혜택을 받을 수 있음을 보여주며, 확장 가능하고 효율적인 실세계 메트릭 인식을 위한 새로운 경로를 제시합니다. 우리는 커뮤니티 연구를 지원하기 위해 MetricAnything을 http://metric-anything.github.io/metric-anything-io/ 에 공개합니다.
English
Scaling has powered recent advances in vision foundation models, yet extending this paradigm to metric depth estimation remains challenging due to heterogeneous sensor noise, camera-dependent biases, and metric ambiguity in noisy cross-source 3D data. We introduce Metric Anything, a simple and scalable pretraining framework that learns metric depth from noisy, diverse 3D sources without manually engineered prompts, camera-specific modeling, or task-specific architectures. Central to our approach is the Sparse Metric Prompt, created by randomly masking depth maps, which serves as a universal interface that decouples spatial reasoning from sensor and camera biases. Using about 20M image-depth pairs spanning reconstructed, captured, and rendered 3D data across 10000 camera models, we demonstrate-for the first time-a clear scaling trend in the metric depth track. The pretrained model excels at prompt-driven tasks such as depth completion, super-resolution and Radar-camera fusion, while its distilled prompt-free student achieves state-of-the-art results on monocular depth estimation, camera intrinsics recovery, single/multi-view metric 3D reconstruction, and VLA planning. We also show that using pretrained ViT of Metric Anything as a visual encoder significantly boosts Multimodal Large Language Model capabilities in spatial intelligence. These results show that metric depth estimation can benefit from the same scaling laws that drive modern foundation models, establishing a new path toward scalable and efficient real-world metric perception. We open-source MetricAnything at http://metric-anything.github.io/metric-anything-io/ to support community research.