MetricAnything: Escalado del Preentrenamiento de Profundidad Métrica con Fuentes Heterogéneas Ruidosas
MetricAnything: Scaling Metric Depth Pretraining with Noisy Heterogeneous Sources
January 29, 2026
Autores: Baorui Ma, Jiahui Yang, Donglin Di, Xuancheng Zhang, Jianxun Cui, Hao Li, Yan Xie, Wei Chen
cs.AI
Resumen
El escalado ha impulsado los avances recientes en modelos fundacionales de visión, pero extender este paradigma a la estimación de profundidad métrica sigue siendo un desafío debido al ruido heterogéneo de los sensores, los sesgos dependientes de la cámara y la ambigüedad métrica en datos 3D multisource ruidosos. Presentamos Metric Anything, un framework de preentrenamiento simple y escalable que aprende profundidad métrica a partir de fuentes 3D diversas y ruidosas, sin prompts diseñados manualmente, modelado específico por cámara o arquitecturas específicas por tarea. El elemento central de nuestro enfoque es el Sparse Metric Prompt, creado mediante el enmascaramiento aleatorio de mapas de profundidad, que sirve como interfaz universal que desacopla el razonamiento espacial de los sesgos del sensor y la cámara. Utilizando aproximadamente 20 millones de pares imagen-profundidad que abarcan datos 3D reconstruidos, capturados y renderizados de más de 10000 modelos de cámara, demostramos —por primera vez— una clara tendencia de escalado en el campo de la profundidad métrica. El modelo preentrenado sobresale en tareas basadas en prompts como la completación de profundidad, la superresolución y la fusión Radar-cámara, mientras que su estudiante 'prompt-free' destilado logra resultados de vanguardia en estimación de profundidad monocular, recuperación de parámetros intrínsecos de la cámara, reconstrucción 3D métrica mono/multivista y planificación VLA. También mostramos que usar un ViT preentrenado de Metric Anything como codificador visual mejora significativamente las capacidades de los Modelos de Lenguaje Grandes Multimodales en inteligencia espacial. Estos resultados demuestran que la estimación de profundidad métrica puede beneficiarse de las mismas leyes de escalado que impulsan los modelos fundacionales modernos, estableciendo un nuevo camino hacia la percepción métrica del mundo real escalable y eficiente. Liberamos Metric Anything como código abierto en http://metric-anything.github.io/metric-anything-io/ para apoyar la investigación comunitaria.
English
Scaling has powered recent advances in vision foundation models, yet extending this paradigm to metric depth estimation remains challenging due to heterogeneous sensor noise, camera-dependent biases, and metric ambiguity in noisy cross-source 3D data. We introduce Metric Anything, a simple and scalable pretraining framework that learns metric depth from noisy, diverse 3D sources without manually engineered prompts, camera-specific modeling, or task-specific architectures. Central to our approach is the Sparse Metric Prompt, created by randomly masking depth maps, which serves as a universal interface that decouples spatial reasoning from sensor and camera biases. Using about 20M image-depth pairs spanning reconstructed, captured, and rendered 3D data across 10000 camera models, we demonstrate-for the first time-a clear scaling trend in the metric depth track. The pretrained model excels at prompt-driven tasks such as depth completion, super-resolution and Radar-camera fusion, while its distilled prompt-free student achieves state-of-the-art results on monocular depth estimation, camera intrinsics recovery, single/multi-view metric 3D reconstruction, and VLA planning. We also show that using pretrained ViT of Metric Anything as a visual encoder significantly boosts Multimodal Large Language Model capabilities in spatial intelligence. These results show that metric depth estimation can benefit from the same scaling laws that drive modern foundation models, establishing a new path toward scalable and efficient real-world metric perception. We open-source MetricAnything at http://metric-anything.github.io/metric-anything-io/ to support community research.