DeFM: Aprendizaje de Representaciones Fundamentales a partir de la Profundidad para la Robótica
DeFM: Learning Foundation Representations from Depth for Robotics
January 26, 2026
Autores: Manthan Patel, Jonas Frey, Mayank Mittal, Fan Yang, Alexander Hansson, Amir Bar, Cesar Cadena, Marco Hutter
cs.AI
Resumen
Los sensores de profundidad están ampliamente desplegados en plataformas robóticas, y los avances en simulación de profundidad rápida y de alta fidelidad han permitido que políticas robóticas entrenadas con observaciones de profundidad logren una transferencia robusta de simulación a realidad para una amplia gama de tareas. A pesar de esto, el aprendizaje de representaciones para la modalidad de profundidad sigue estando menos explorado en comparación con RGB, donde los modelos fundacionales a gran escala definen ahora el estado del arte. Para abordar esta brecha, presentamos DeFM, un modelo fundacional de auto-supervisión entrenado completamente en imágenes de profundidad para aplicaciones robóticas. Utilizando un objetivo de auto-distilación estilo DINO en un conjunto de datos curado de 60 millones de imágenes de profundidad, DeFM aprende representaciones geométricas y semánticas que generalizan a diversos entornos, tareas y sensores. Para retener la conciencia métrica a través de múltiples escalas, introducimos una novedosa estrategia de normalización de entrada. Además, destilamos DeFM en modelos compactos adecuados para sistemas robóticos con recursos limitados. Al evaluarse en benchmarks de clasificación, segmentación, navegación, locomoción y manipulación basados en profundidad, DeFM logra un rendimiento de vanguardia y demuestra una fuerte generalización de entornos de simulación a entornos del mundo real. Publicamos todos nuestros modelos preentrenados, que pueden adoptarse directamente para el aprendizaje robótico basado en profundidad sin ajuste específico por tarea. Página web: https://de-fm.github.io/
English
Depth sensors are widely deployed across robotic platforms, and advances in fast, high-fidelity depth simulation have enabled robotic policies trained on depth observations to achieve robust sim-to-real transfer for a wide range of tasks. Despite this, representation learning for depth modality remains underexplored compared to RGB, where large-scale foundation models now define the state of the art. To address this gap, we present DeFM, a self-supervised foundation model trained entirely on depth images for robotic applications. Using a DINO-style self-distillation objective on a curated dataset of 60M depth images, DeFM learns geometric and semantic representations that generalize to diverse environments, tasks, and sensors. To retain metric awareness across multiple scales, we introduce a novel input normalization strategy. We further distill DeFM into compact models suitable for resource-constrained robotic systems. When evaluated on depth-based classification, segmentation, navigation, locomotion, and manipulation benchmarks, DeFM achieves state-of-the-art performance and demonstrates strong generalization from simulation to real-world environments. We release all our pretrained models, which can be adopted off-the-shelf for depth-based robotic learning without task-specific fine-tuning. Webpage: https://de-fm.github.io/