MetricAnything: ノイズの多い異種ソースによるメトリック深度事前学習のスケーリング
MetricAnything: Scaling Metric Depth Pretraining with Noisy Heterogeneous Sources
January 29, 2026
著者: Baorui Ma, Jiahui Yang, Donglin Di, Xuancheng Zhang, Jianxun Cui, Hao Li, Yan Xie, Wei Chen
cs.AI
要旨
スケーリングは視覚基盤モデルの近年の進歩を牽引してきたが、このパラダイムをメートル法深度推定に拡張することは、不均一なセンサノイズ、カメラ依存のバイアス、ノイズの多いクロスソース3Dデータにおけるメートル法の曖昧さにより、依然として困難である。本論文では、手動で設計されたプロンプト、カメラ固有のモデリング、またはタスク固有のアーキテクチャを必要とせず、ノイズの多い多様な3Dソースからメートル法深度を学習する、シンプルでスケーラブルな事前学習フレームワーク「Metric Anything」を提案する。我々のアプローチの中核は、深度マップをランダムにマスキングして作成される「Sparse Metric Prompt」であり、これは空間推論をセンサやカメラのバイアスから切り離す普遍的なインターフェースとして機能する。約1万台のカメラモデルにわたる再構築、撮影、レンダリングされた3Dデータからなる約2000万の画像-深度ペアを使用して、我々はメートル法深度トラックにおいて初めて明確なスケーリングの傾向を実証する。事前学習済みモデルは、深度補完、超解像、レーダー-カメラ融合などのプロンプト駆動タスクで優れた性能を発揮し、その蒸留されたプロンプト不要の学生モデルは、単眼深度推定、カメラ内部パラメータ回復、単一/多視点メートル法3D再構築、VLA計画において最新の結果を達成する。また、Metric Anythingの事前学習済みViTを視覚エンコーダとして使用することで、マルチモーダル大規模言語モデルの空間知能能力が大幅に向上することを示す。これらの結果は、メートル法深度推定が現代の基盤モデルを推進するのと同じスケーリング則の恩恵を受け得ることを示し、スケーラブルで効率的な実世界のメートル法知覚への新たな道筋を確立する。我々はコミュニティの研究を支援するため、Metric Anythingを http://metric-anything.github.io/metric-anything-io/ でオープンソース化する。
English
Scaling has powered recent advances in vision foundation models, yet extending this paradigm to metric depth estimation remains challenging due to heterogeneous sensor noise, camera-dependent biases, and metric ambiguity in noisy cross-source 3D data. We introduce Metric Anything, a simple and scalable pretraining framework that learns metric depth from noisy, diverse 3D sources without manually engineered prompts, camera-specific modeling, or task-specific architectures. Central to our approach is the Sparse Metric Prompt, created by randomly masking depth maps, which serves as a universal interface that decouples spatial reasoning from sensor and camera biases. Using about 20M image-depth pairs spanning reconstructed, captured, and rendered 3D data across 10000 camera models, we demonstrate-for the first time-a clear scaling trend in the metric depth track. The pretrained model excels at prompt-driven tasks such as depth completion, super-resolution and Radar-camera fusion, while its distilled prompt-free student achieves state-of-the-art results on monocular depth estimation, camera intrinsics recovery, single/multi-view metric 3D reconstruction, and VLA planning. We also show that using pretrained ViT of Metric Anything as a visual encoder significantly boosts Multimodal Large Language Model capabilities in spatial intelligence. These results show that metric depth estimation can benefit from the same scaling laws that drive modern foundation models, establishing a new path toward scalable and efficient real-world metric perception. We open-source MetricAnything at http://metric-anything.github.io/metric-anything-io/ to support community research.