ChatPaper.aiChatPaper

MetricAnything : Mise à l'échelle de l'apprentissage préalable de la métrique de profondeur avec des sources hétérogènes bruitées

MetricAnything: Scaling Metric Depth Pretraining with Noisy Heterogeneous Sources

January 29, 2026
papers.authors: Baorui Ma, Jiahui Yang, Donglin Di, Xuancheng Zhang, Jianxun Cui, Hao Li, Yan Xie, Wei Chen
cs.AI

papers.abstract

La mise à l'échelle a alimenté les récentes avancées des modèles de fondation en vision, mais l'extension de ce paradigme à l'estimation métrique de la profondeur reste difficile en raison du bruit hétérogène des capteurs, des biais dépendants de la caméra et de l'ambiguïté métrique dans les données 3D multi-sources bruitées. Nous présentons Metric Anything, un cadre d'apprentissage préalable simple et évolutif qui apprend la profondeur métrique à partir de sources 3D diverses et bruitées, sans invites conçues manuellement, modélisation spécifique à la caméra ou architectures dédiées à une tâche. Au cœur de notre approche se trouve l'Invite Métrique Éparse, créée en masquant aléatoirement les cartes de profondeur, qui sert d'interface universelle découplant le raisonnement spatial des biais du capteur et de la caméra. En utilisant environ 20 millions de paires image-profondeur couvrant des données 3D reconstruites, capturées et synthétisées, provenant de 10 000 modèles de caméras, nous démontrons - pour la première fois - une tendance claire de mise à l'échelle dans le domaine de la profondeur métrique. Le modèle pré-entraîné excelle dans les tâches pilotées par invite telles que la complétion de profondeur, la super-résolution et la fusion Radar-caméra, tandis que son étudiant "sans invite" distillé obtient des résultats state-of-the-art en estimation de profondeur monoculaire, récupération des paramètres intrinsèques de la caméra, reconstruction 3D métrique mono/multi-vues et planification VLA. Nous montrons également que l'utilisation du ViT pré-entraîné de Metric Anything comme encodeur visuel améliore significativement les capacités des Grands Modèles Linguistiques Multimodaux en intelligence spatiale. Ces résultats montrent que l'estimation métrique de la profondeur peut bénéficier des mêmes lois d'échelle qui animent les modèles de fondation modernes, ouvrant une nouvelle voie vers une perception métrique du monde réel évolutive et efficace. Nous ouvrons le code de MetricAnything à http://metric-anything.github.io/metric-anything-io/ pour soutenir la recherche communautaire.
English
Scaling has powered recent advances in vision foundation models, yet extending this paradigm to metric depth estimation remains challenging due to heterogeneous sensor noise, camera-dependent biases, and metric ambiguity in noisy cross-source 3D data. We introduce Metric Anything, a simple and scalable pretraining framework that learns metric depth from noisy, diverse 3D sources without manually engineered prompts, camera-specific modeling, or task-specific architectures. Central to our approach is the Sparse Metric Prompt, created by randomly masking depth maps, which serves as a universal interface that decouples spatial reasoning from sensor and camera biases. Using about 20M image-depth pairs spanning reconstructed, captured, and rendered 3D data across 10000 camera models, we demonstrate-for the first time-a clear scaling trend in the metric depth track. The pretrained model excels at prompt-driven tasks such as depth completion, super-resolution and Radar-camera fusion, while its distilled prompt-free student achieves state-of-the-art results on monocular depth estimation, camera intrinsics recovery, single/multi-view metric 3D reconstruction, and VLA planning. We also show that using pretrained ViT of Metric Anything as a visual encoder significantly boosts Multimodal Large Language Model capabilities in spatial intelligence. These results show that metric depth estimation can benefit from the same scaling laws that drive modern foundation models, establishing a new path toward scalable and efficient real-world metric perception. We open-source MetricAnything at http://metric-anything.github.io/metric-anything-io/ to support community research.
PDF33January 31, 2026