MetricAnything: Escalonando o Pré-treinamento de Métrica de Profundidade com Fontes Heterogêneas Ruidosas

Resumo

A escala tem impulsionado avanços recentes em modelos de fundação visuais, mas estender esse paradigma à estimativa métrica de profundidade permanece desafiador devido ao ruído heterogêneo de sensores, vieses dependentes da câmera e ambiguidade métrica em dados 3D multissource ruidosos. Apresentamos o Metric Anything, uma estrutura de pré-treinamento simples e escalável que aprende profundidade métrica a partir de fontes 3D diversas e ruidosas, sem *prompts* manualmente elaborados, modelagem específica da câmera ou arquiteturas específicas para tarefas. Central para nossa abordagem é o *Sparse Metric Prompt*, criado pela mascaramento aleatório de mapas de profundidade, que serve como uma interface universal que desacopla o raciocínio espacial dos vieses do sensor e da câmera. Usando cerca de 20 milhões de pares imagem-profundidade abrangendo dados 3D reconstruídos, capturados e renderizados de 10.000 modelos de câmera, demonstramos – pela primeira vez – uma tendência clara de escala na área de profundidade métrica. O modelo pré-treinado se destaca em tarefas orientadas por *prompts*, como preenchimento de profundidade, super-resolução e fusão Radar-câmera, enquanto seu estudante sem *prompt* destilado alcança resultados state-of-the-art em estimativa de profundidade monocular, recuperação de intrínsecos da câmera, reconstrução 3D métrica com visão única/múltipla e planejamento VLA. Também mostramos que usar um ViT pré-treinado do Metric Anything como codificador visual aumenta significativamente as capacidades de Modelos de Linguagem Multimodais de Grande Escala em inteligência espacial. Esses resultados mostram que a estimativa métrica de profundidade pode se beneficiar das mesmas leis de escala que impulsionam os modelos de fundação modernos, estabelecendo um novo caminho para a percepção métrica escalável e eficiente no mundo real. Disponibilizamos o MetricAnything como código aberto em http://metric-anything.github.io/metric-anything-io/ para apoiar a pesquisa comunitária.

English

Scaling has powered recent advances in vision foundation models, yet extending this paradigm to metric depth estimation remains challenging due to heterogeneous sensor noise, camera-dependent biases, and metric ambiguity in noisy cross-source 3D data. We introduce Metric Anything, a simple and scalable pretraining framework that learns metric depth from noisy, diverse 3D sources without manually engineered prompts, camera-specific modeling, or task-specific architectures. Central to our approach is the Sparse Metric Prompt, created by randomly masking depth maps, which serves as a universal interface that decouples spatial reasoning from sensor and camera biases. Using about 20M image-depth pairs spanning reconstructed, captured, and rendered 3D data across 10000 camera models, we demonstrate-for the first time-a clear scaling trend in the metric depth track. The pretrained model excels at prompt-driven tasks such as depth completion, super-resolution and Radar-camera fusion, while its distilled prompt-free student achieves state-of-the-art results on monocular depth estimation, camera intrinsics recovery, single/multi-view metric 3D reconstruction, and VLA planning. We also show that using pretrained ViT of Metric Anything as a visual encoder significantly boosts Multimodal Large Language Model capabilities in spatial intelligence. These results show that metric depth estimation can benefit from the same scaling laws that drive modern foundation models, establishing a new path toward scalable and efficient real-world metric perception. We open-source MetricAnything at http://metric-anything.github.io/metric-anything-io/ to support community research.

MetricAnything: Escalonando o Pré-treinamento de Métrica de Profundidade com Fontes Heterogêneas Ruidosas

MetricAnything: Scaling Metric Depth Pretraining with Noisy Heterogeneous Sources

Resumo

Support