ChatPaper.aiChatPaper

DeFM : Apprentissage de représentations fondamentales à partir de la profondeur pour la robotique

DeFM: Learning Foundation Representations from Depth for Robotics

January 26, 2026
papers.authors: Manthan Patel, Jonas Frey, Mayank Mittal, Fan Yang, Alexander Hansson, Amir Bar, Cesar Cadena, Marco Hutter
cs.AI

papers.abstract

Les capteurs de profondeur sont largement déployés sur les plateformes robotiques, et les progrès en matière de simulation de profondeur rapide et haute fidélité ont permis à des politiques robotiques entraînées sur des observations de profondeur d'atteindre un transfert robuste du simulateur à la réalité pour une large gamme de tâches. Malgré cela, l'apprentissage de représentations pour la modalité de profondeur reste peu exploré comparé au RVB, où les modèles de fondation à grande échelle définissent désormais l'état de l'art. Pour combler cette lacune, nous présentons DeFM, un modèle de fondation auto-supervisé entièrement entraîné sur des images de profondeur pour des applications robotiques. En utilisant un objectif d'auto-distillation de style DINO sur un jeu de données curé de 60 millions d'images de profondeur, DeFM apprend des représentations géométriques et sémantiques qui généralisent à divers environnements, tâches et capteurs. Pour préserver la conscience métrique à travers plusieurs échelles, nous introduisons une nouvelle stratégie de normalisation des entrées. Nous distillons ensuite DeFM en modèles compacts adaptés aux systèmes robotiques à ressources limitées. Lorsqu'il est évalué sur des benchmarks de classification, segmentation, navigation, locomotion et manipulation basés sur la profondeur, DeFM atteint des performances à l'état de l'art et démontre une forte généralisation des environnements simulés aux environnements réels. Nous publions tous nos modèles pré-entraînés, qui peuvent être adoptés directement pour l'apprentissage robotique basé sur la profondeur sans réglage spécifique aux tâches. Page web : https://de-fm.github.io/
English
Depth sensors are widely deployed across robotic platforms, and advances in fast, high-fidelity depth simulation have enabled robotic policies trained on depth observations to achieve robust sim-to-real transfer for a wide range of tasks. Despite this, representation learning for depth modality remains underexplored compared to RGB, where large-scale foundation models now define the state of the art. To address this gap, we present DeFM, a self-supervised foundation model trained entirely on depth images for robotic applications. Using a DINO-style self-distillation objective on a curated dataset of 60M depth images, DeFM learns geometric and semantic representations that generalize to diverse environments, tasks, and sensors. To retain metric awareness across multiple scales, we introduce a novel input normalization strategy. We further distill DeFM into compact models suitable for resource-constrained robotic systems. When evaluated on depth-based classification, segmentation, navigation, locomotion, and manipulation benchmarks, DeFM achieves state-of-the-art performance and demonstrates strong generalization from simulation to real-world environments. We release all our pretrained models, which can be adopted off-the-shelf for depth-based robotic learning without task-specific fine-tuning. Webpage: https://de-fm.github.io/
PDF11January 29, 2026