DeFM: Erlernen grundlegender Repräsentationen aus Tiefendaten für die Robotik
DeFM: Learning Foundation Representations from Depth for Robotics
January 26, 2026
papers.authors: Manthan Patel, Jonas Frey, Mayank Mittal, Fan Yang, Alexander Hansson, Amir Bar, Cesar Cadena, Marco Hutter
cs.AI
papers.abstract
Tiefensensoren sind auf Robotikplattformen weit verbreitet, und Fortschritte in der schnellen, hochauflösenden Tiefensimulation ermöglichen es, auf Tiefenbeobachtungen trainierte Robotiksteuerungen einen robusten Sim-to-Real-Transfer für eine Vielzahl von Aufgaben zu erreichen. Dennoch ist das Repräsentationslernen für die Tiefenmodalität im Vergleich zu RGB weniger erforscht, wo große Foundation-Modelze inzwischen den Stand der Technik definieren. Um diese Lücke zu schließen, stellen wir DeFM vor, ein selbstüberwachtes Foundation-Modell, das vollständig auf Tiefenbildern für robotische Anwendungen trainiert wurde. Unter Verwendung eines DINO-artigen Selbstdistillationsziels auf einem kuratierten Datensatz von 60 Millionen Tiefenbildern lernt DeFM geometrische und semantische Repräsentationen, die sich auf verschiedene Umgebungen, Aufgaben und Sensoren verallgemeinern lassen. Um das metrische Bewusstsein über mehrere Skalen hinweg zu erhalten, führen wir eine neuartige Eingabenormalisierungsstrategie ein. Wir destillieren DeFM weiterhin in kompakte Modelle, die für ressourcenbeschränkte Robotiksysteme geeignet sind. Bei der Auswertung auf Tiefen-basierten Benchmarks für Klassifikation, Segmentierung, Navigation, Fortbewegung und Manipulation erzielt DeFM state-of-the-art Leistung und demonstriert eine starke Generalisierung von der Simulation zu realen Umgebungen. Wir veröffentlichen alle unsere vortrainierten Modelle, die sofort für Tiefen-basiertes robotisches Lernen ohne aufgabenspezifisches Fine-Tuning übernommen werden können. Webseite: https://de-fm.github.io/
English
Depth sensors are widely deployed across robotic platforms, and advances in fast, high-fidelity depth simulation have enabled robotic policies trained on depth observations to achieve robust sim-to-real transfer for a wide range of tasks. Despite this, representation learning for depth modality remains underexplored compared to RGB, where large-scale foundation models now define the state of the art. To address this gap, we present DeFM, a self-supervised foundation model trained entirely on depth images for robotic applications. Using a DINO-style self-distillation objective on a curated dataset of 60M depth images, DeFM learns geometric and semantic representations that generalize to diverse environments, tasks, and sensors. To retain metric awareness across multiple scales, we introduce a novel input normalization strategy. We further distill DeFM into compact models suitable for resource-constrained robotic systems. When evaluated on depth-based classification, segmentation, navigation, locomotion, and manipulation benchmarks, DeFM achieves state-of-the-art performance and demonstrates strong generalization from simulation to real-world environments. We release all our pretrained models, which can be adopted off-the-shelf for depth-based robotic learning without task-specific fine-tuning. Webpage: https://de-fm.github.io/