DeFM: Aprendendo Representações Fundamentais a partir da Profundidade para Robótica

Resumo

Os sensores de profundidade são amplamente utilizados em plataformas robóticas, e os avanços na simulação de profundidade rápida e de alta fidelidade permitiram que políticas robóticas treinadas em observações de profundidade alcançassem uma transferência robusta do simulado para o real em uma ampla gama de tarefas. Apesar disso, a aprendizagem de representação para a modalidade de profundidade permanece pouco explorada em comparação com RGB, onde modelos de base de grande escala agora definem o estado da arte. Para preencher esta lacuna, apresentamos o DeFM, um modelo de base auto-supervisionado treinado inteiramente em imagens de profundidade para aplicações robóticas. Utilizando um objetivo de auto-distilação no estilo DINO em um conjunto de dados curado de 60 milhões de imagens de profundidade, o DeFM aprende representações geométricas e semânticas que generalizam para diversos ambientes, tarefas e sensores. Para manter a consciência métrica em múltiplas escalas, introduzimos uma nova estratégia de normalização de entrada. Adicionalmente, destilamos o DeFM em modelos compactos adequados para sistemas robóticos com recursos limitados. Quando avaliado em benchmarks de classificação, segmentação, navegação, locomoção e manipulação baseados em profundidade, o DeFM alcança desempenho de ponta e demonstra forte generalização de ambientes simulados para o mundo real. Disponibilizamos todos os nossos modelos pré-treinados, que podem ser adotados diretamente para aprendizagem robótica baseada em profundidade sem ajuste específico por tarefa. Página web: https://de-fm.github.io/

English

Depth sensors are widely deployed across robotic platforms, and advances in fast, high-fidelity depth simulation have enabled robotic policies trained on depth observations to achieve robust sim-to-real transfer for a wide range of tasks. Despite this, representation learning for depth modality remains underexplored compared to RGB, where large-scale foundation models now define the state of the art. To address this gap, we present DeFM, a self-supervised foundation model trained entirely on depth images for robotic applications. Using a DINO-style self-distillation objective on a curated dataset of 60M depth images, DeFM learns geometric and semantic representations that generalize to diverse environments, tasks, and sensors. To retain metric awareness across multiple scales, we introduce a novel input normalization strategy. We further distill DeFM into compact models suitable for resource-constrained robotic systems. When evaluated on depth-based classification, segmentation, navigation, locomotion, and manipulation benchmarks, DeFM achieves state-of-the-art performance and demonstrates strong generalization from simulation to real-world environments. We release all our pretrained models, which can be adopted off-the-shelf for depth-based robotic learning without task-specific fine-tuning. Webpage: https://de-fm.github.io/

DeFM: Aprendendo Representações Fundamentais a partir da Profundidade para Robótica

DeFM: Learning Foundation Representations from Depth for Robotics

Resumo

Support