MetricAnything: Масштабирование предварительного обучения метрической глубине с использованием зашумленных гетерогенных источников
MetricAnything: Scaling Metric Depth Pretraining with Noisy Heterogeneous Sources
January 29, 2026
Авторы: Baorui Ma, Jiahui Yang, Donglin Di, Xuancheng Zhang, Jianxun Cui, Hao Li, Yan Xie, Wei Chen
cs.AI
Аннотация
Масштабирование стало движущей силой последних достижений в базовых моделях компьютерного зрения, однако распространение этой парадигмы на метрическое оценивание глубины остается сложной задачей из-за неоднородного сенсорного шума, зависящих от камеры смещений и метрической неоднозначности в зашумленных разрозненных 3D-данных. Мы представляем Metric Anything — простую и масштабируемую структуру предварительного обучения, которая изучает метрическую глубину из зашумленных разнородных 3D-источников без использования созданных вручную промптов, моделирования под конкретную камеру или специализированных архитектур. Ключевым элементом нашего подхода является Sparse Metric Prompt, создаваемый путем случайного маскирования карт глубины, который служит универсальным интерфейсом, отделяющим пространственные рассуждения от сенсорных и камерных смещений. Используя около 20 миллионов пар «изображение-глубина», охватывающих реконструированные, снятые и синтезированные 3D-данные с 10000 моделей камер, мы впервые демонстрируем четкую тенденцию масштабирования в задаче метрического определения глубины. Предварительно обученная модель преуспевает в задачах, управляемых промптами, таких как восстановление глубины, супер-разрешение и слияние данных радара и камеры, в то время как ее дистиллированный «ученик», не требующий промптов, достигает state-of-the-art результатов в моноскопическом оценивании глубины, восстановлении внутренних параметров камеры, одно-/многовидовой метрической 3D-реконструкции и планировании для VLA. Мы также показываем, что использование предварительно обученного ViT от Metric Anything в качестве визуального энкодера значительно повышает возможности мультимодальных больших языковых моделей в области пространственного интеллекта. Эти результаты демонстрируют, что метрическое оценивание глубины может выиграть от тех же законов масштабирования, что и современные базовые модели, открывая новый путь к масштабируемому и эффективному метрическому восприятию в реальном мире. Мы открываем исходный код Metric Anything по адресу http://metric-anything.github.io/metric-anything-io/ для поддержки исследований сообщества.
English
Scaling has powered recent advances in vision foundation models, yet extending this paradigm to metric depth estimation remains challenging due to heterogeneous sensor noise, camera-dependent biases, and metric ambiguity in noisy cross-source 3D data. We introduce Metric Anything, a simple and scalable pretraining framework that learns metric depth from noisy, diverse 3D sources without manually engineered prompts, camera-specific modeling, or task-specific architectures. Central to our approach is the Sparse Metric Prompt, created by randomly masking depth maps, which serves as a universal interface that decouples spatial reasoning from sensor and camera biases. Using about 20M image-depth pairs spanning reconstructed, captured, and rendered 3D data across 10000 camera models, we demonstrate-for the first time-a clear scaling trend in the metric depth track. The pretrained model excels at prompt-driven tasks such as depth completion, super-resolution and Radar-camera fusion, while its distilled prompt-free student achieves state-of-the-art results on monocular depth estimation, camera intrinsics recovery, single/multi-view metric 3D reconstruction, and VLA planning. We also show that using pretrained ViT of Metric Anything as a visual encoder significantly boosts Multimodal Large Language Model capabilities in spatial intelligence. These results show that metric depth estimation can benefit from the same scaling laws that drive modern foundation models, establishing a new path toward scalable and efficient real-world metric perception. We open-source MetricAnything at http://metric-anything.github.io/metric-anything-io/ to support community research.