ChatPaper.aiChatPaper

MetricAnything: Skalierbares vortrainieren metrischer Tiefe mit verrauschten heterogenen Quellen

MetricAnything: Scaling Metric Depth Pretraining with Noisy Heterogeneous Sources

January 29, 2026
papers.authors: Baorui Ma, Jiahui Yang, Donglin Di, Xuancheng Zhang, Jianxun Cui, Hao Li, Yan Xie, Wei Chen
cs.AI

papers.abstract

Skalierung hat die jüngsten Fortschritte bei visuellen Basismodellen vorangetrieben, doch die Übertragung dieses Paradigmas auf die metrische Tiefenschätzung bleibt aufgrund von heterogenem Sensorrauschen, kameraabhängigen Verzerrungen und metrischer Mehrdeutigkeit in verrauschten, quellenübergreifenden 3D-Daten eine Herausforderung. Wir stellen Metric Anything vor, ein einfaches und skalierbares Vortrainierungsframework, das metrische Tiefe aus verrauschten, diversen 3D-Quellen erlernt – ohne manuell erstellte Prompts, kameraspezifische Modellierung oder aufgabenspezifische Architekturen. Kern unseres Ansatzes ist der Sparse Metric Prompt, der durch zufälliges Maskieren von Tiefenkarten erzeugt wird und als universelle Schnittstelle dient, die räumliches Reasoning von Sensor- und Kameraverzerrungen entkoppelt. Unter Verwendung von etwa 20 Millionen Bild-Tiefen-Paaren aus rekonstruierten, aufgenommenen und gerenderten 3D-Daten von über 10000 Kameramodellen demonstrieren wir – erstmalig – einen klaren Skalierungstrend im Bereich der metrischen Tiefenschätzung. Das vortrainierte Modell überzeugt bei Prompt-gesteuerten Aufgaben wie Tiefenvervollständigung, Super-Resolution und Radar-Kamera-Fusion, während sein destillierter, Prompt-freier Student state-of-the-art Ergebnisse bei monokularer Tiefenschätzung, Kamerakalibrierung, mono-/multiview metrischer 3D-Rekonstruktion und VLA-Planung erzielt. Wir zeigen auch, dass die Verwendung des vortrainierten ViT von Metric Anything als visueller Encoder die Fähigkeiten Multimodaler Großer Sprachmodelle im Bereich der räumlichen Intelligenz erheblich steigert. Diese Ergebnisse belegen, dass die metrische Tiefenschätzung von denselben Skalierungsgesetzen profitieren kann, die moderne Basismodelle antreiben, und ebnen den Weg zu skalierbarer und effizienter metrischer Wahrnehmung in der realen Welt. Wir veröffentlichen Metric Anything unter http://metric-anything.github.io/metric-anything-io/, um die Forschung in der Community zu unterstützen.
English
Scaling has powered recent advances in vision foundation models, yet extending this paradigm to metric depth estimation remains challenging due to heterogeneous sensor noise, camera-dependent biases, and metric ambiguity in noisy cross-source 3D data. We introduce Metric Anything, a simple and scalable pretraining framework that learns metric depth from noisy, diverse 3D sources without manually engineered prompts, camera-specific modeling, or task-specific architectures. Central to our approach is the Sparse Metric Prompt, created by randomly masking depth maps, which serves as a universal interface that decouples spatial reasoning from sensor and camera biases. Using about 20M image-depth pairs spanning reconstructed, captured, and rendered 3D data across 10000 camera models, we demonstrate-for the first time-a clear scaling trend in the metric depth track. The pretrained model excels at prompt-driven tasks such as depth completion, super-resolution and Radar-camera fusion, while its distilled prompt-free student achieves state-of-the-art results on monocular depth estimation, camera intrinsics recovery, single/multi-view metric 3D reconstruction, and VLA planning. We also show that using pretrained ViT of Metric Anything as a visual encoder significantly boosts Multimodal Large Language Model capabilities in spatial intelligence. These results show that metric depth estimation can benefit from the same scaling laws that drive modern foundation models, establishing a new path toward scalable and efficient real-world metric perception. We open-source MetricAnything at http://metric-anything.github.io/metric-anything-io/ to support community research.
PDF33January 31, 2026