MetricAnything: Scalabilità dell'Addestramento Preliminare sulla Metrica di Profondità con Fonti Eterogenee e Rumori

Abstract

Il ridimensionamento scalare ha alimentato i recenti progressi nei modelli fondazionali per la visione, ma estendere questo paradigma alla stima metrica della profondità rimane complesso a causa del rumore eterogeneo dei sensori, dei bias dipendenti dalla telecamera e dell'ambiguità metrica nei dati 3D cross-source rumorosi. Introduciamo Metric Anything, un framework di pre-addestramento semplice e scalabile che apprende la profondità metrica da fonti 3D rumorose e diversificate senza prompt progettati manualmente, modellazioni specifiche per telecamera o architetture task-specific. Elemento centrale del nostro approccio è lo Sparse Metric Prompt, creato mascherando casualmente le mappe di profondità, che funge da interfaccia universale disaccoppiando il ragionamento spaziale dai bias del sensore e della telecamera. Utilizzando circa 20 milioni di coppie immagine-profondità che coprono dati 3D ricostruiti, acquisiti e renderizzati attraverso 10000 modelli di telecamera, dimostriamo – per la prima volta – una chiara tendenza di scaling nel campo della profondità metrica. Il modello pre-addestrato eccelle in compiti guidati da prompt come il completamento della profondità, la super-risoluzione e la fusione Radar-telecamera, mentre il suo studente distillato senza prompt raggiunge risultati all'avanguardia nella stima monoculare della profondità, nel recupero degli intrinseci della telecamera, nella ricostruzione metrica 3D mono/multi-vista e nella pianificazione VLA. Mostriamo inoltre che l'utilizzo del ViT pre-addestrato di Metric Anything come encoder visivo potenzia significativamente le capacità di intelligenza spaziale dei Modelli Linguistici Multimodali di Grande Dimensione. Questi risultati dimostrano che la stima metrica della profondità può beneficiare delle stesse leggi di scalabilità che guidano i moderni modelli fondazionali, tracciando una nuova via verso una percezione metrica nel mondo reale scalabile ed efficiente. Rendiamo Metric Anything open-source all'indirizzo http://metric-anything.github.io/metric-anything-io/ per supportare la ricerca della comunità.

English

Scaling has powered recent advances in vision foundation models, yet extending this paradigm to metric depth estimation remains challenging due to heterogeneous sensor noise, camera-dependent biases, and metric ambiguity in noisy cross-source 3D data. We introduce Metric Anything, a simple and scalable pretraining framework that learns metric depth from noisy, diverse 3D sources without manually engineered prompts, camera-specific modeling, or task-specific architectures. Central to our approach is the Sparse Metric Prompt, created by randomly masking depth maps, which serves as a universal interface that decouples spatial reasoning from sensor and camera biases. Using about 20M image-depth pairs spanning reconstructed, captured, and rendered 3D data across 10000 camera models, we demonstrate-for the first time-a clear scaling trend in the metric depth track. The pretrained model excels at prompt-driven tasks such as depth completion, super-resolution and Radar-camera fusion, while its distilled prompt-free student achieves state-of-the-art results on monocular depth estimation, camera intrinsics recovery, single/multi-view metric 3D reconstruction, and VLA planning. We also show that using pretrained ViT of Metric Anything as a visual encoder significantly boosts Multimodal Large Language Model capabilities in spatial intelligence. These results show that metric depth estimation can benefit from the same scaling laws that drive modern foundation models, establishing a new path toward scalable and efficient real-world metric perception. We open-source MetricAnything at http://metric-anything.github.io/metric-anything-io/ to support community research.

MetricAnything: Scalabilità dell'Addestramento Preliminare sulla Metrica di Profondità con Fonti Eterogenee e Rumori

MetricAnything: Scaling Metric Depth Pretraining with Noisy Heterogeneous Sources

Abstract

Support