MetricAnything: Schaalvergroting van Metrische Dieptepretraining met Rommelige Heterogene Bronnen

Samenvatting

Schaalvergroting heeft recente vooruitgang in vision foundation-modellen aangedreven, maar het uitbreiden van dit paradigma naar metrische diepteschatting blijft uitdagend vanwege heterogene sensorgeluiden, camera-afhankelijke vertekeningen en metrische ambiguïteit in ruwe cross-source 3D-data. Wij introduceren Metric Anything, een eenvoudig en schaalbaar voor-trainingsraamwerk dat metrische diepte leert uit ruwe, diverse 3D-bronnen zonder handmatig ontworpen prompts, camera-specifieke modellering of taakspecifieke architecturen. Centraal in onze aanpak staat de Sparse Metric Prompt, gecreëerd door willekeurig maskeren van dieptekaarten, die dient als een universele interface die ruimtelijk redeneren ontkoppelt van sensor- en cameravertekeningen. Met ongeveer 20M beeld-diepteparen die gereconstrueerde, vastgelegde en gerenderde 3D-data omvatten over 10000 cameramodellen, demonstreren wij – voor het eerst – een duidelijke schaalvergrotingstrend in het metrische dieptespoor. Het voorgetrainde model excelleert in prompt-gestuurde taken zoals dieptecompletering, superresolutie en Radar-camerafusie, terwijl zijn gedistilleerde prompt-vrije student state-of-the-art resultaten behaalt bij monoscopische diepteschatting, herstel van camera-intrinsieken, enkel-/meerbeeld metrische 3D-reconstructie en VLA-planning. We tonen ook aan dat het gebruik van de voorgetrainde ViT van Metric Anything als visuele encoder de capaciteiten van Multimodale Large Language Modellen voor ruimtelijke intelligentie significant versterkt. Deze resultaten tonen aan dat metrische diepteschatting kan profiteren van dezelfde schaalwetten die moderne foundation-modellen aandrijven, wat een nieuw pad opent naar schaalbare en efficiënte metrische perceptie in de echte wereld. We maken MetricAnything open source op http://metric-anything.github.io/metric-anything-io/ om gemeenschapsonderzoek te ondersteunen.

English

Scaling has powered recent advances in vision foundation models, yet extending this paradigm to metric depth estimation remains challenging due to heterogeneous sensor noise, camera-dependent biases, and metric ambiguity in noisy cross-source 3D data. We introduce Metric Anything, a simple and scalable pretraining framework that learns metric depth from noisy, diverse 3D sources without manually engineered prompts, camera-specific modeling, or task-specific architectures. Central to our approach is the Sparse Metric Prompt, created by randomly masking depth maps, which serves as a universal interface that decouples spatial reasoning from sensor and camera biases. Using about 20M image-depth pairs spanning reconstructed, captured, and rendered 3D data across 10000 camera models, we demonstrate-for the first time-a clear scaling trend in the metric depth track. The pretrained model excels at prompt-driven tasks such as depth completion, super-resolution and Radar-camera fusion, while its distilled prompt-free student achieves state-of-the-art results on monocular depth estimation, camera intrinsics recovery, single/multi-view metric 3D reconstruction, and VLA planning. We also show that using pretrained ViT of Metric Anything as a visual encoder significantly boosts Multimodal Large Language Model capabilities in spatial intelligence. These results show that metric depth estimation can benefit from the same scaling laws that drive modern foundation models, establishing a new path toward scalable and efficient real-world metric perception. We open-source MetricAnything at http://metric-anything.github.io/metric-anything-io/ to support community research.

MetricAnything: Schaalvergroting van Metrische Dieptepretraining met Rommelige Heterogene Bronnen

MetricAnything: Scaling Metric Depth Pretraining with Noisy Heterogeneous Sources

Samenvatting

Support