DeFM: 로봇 공학을 위한 깊이 정보 기반 파운데이션 표현 학습
DeFM: Learning Foundation Representations from Depth for Robotics
January 26, 2026
저자: Manthan Patel, Jonas Frey, Mayank Mittal, Fan Yang, Alexander Hansson, Amir Bar, Cesar Cadena, Marco Hutter
cs.AI
초록
깊이 센서는 로봇 플랫폼에 광범위하게 활용되며, 빠르고 높은 정확도의 깊이 시뮬레이션 기술의 발전으로 인해 깊이 관측 데이터로 훈련된 로봇 정책들이 다양한 작업에서 강력한 시뮬레이션-현실 전이 성능을 달성하고 있습니다. 그럼에도 불구하고, 깊이 모달리티에 대한 표현 학습은 대규모 파운데이션 모델이 최첨단을 정의하는 RGB 모달리티에 비해 상대적으로 덜 탐구되었습니다. 이러한 격차를 해결하기 위해 우리는 로봇 응용을 위해 오직 깊이 이미지로만 훈련된 자기 지도 학습 기반 파운데이션 모델인 DeFM을 제안합니다. 6천만 개의 깊이 이미지로 구성된 정제된 데이터셋에 DINO 스타일의 자기 디스틸레이션 목표를 적용함으로써, DeFM은 다양한 환경, 작업 및 센서에 일반화되는 기하학적 및 의미론적 표현을 학습합니다. 다양한 스케일에서 미터법 인식을 유지하기 위해 우리는 새로운 입력 정규화 전략을 도입했습니다. 또한 우리는 자원이 제한된 로봇 시스템에 적합한 컴팩트 모델로 DeFM을 디스틸레이션합니다. 깊이 기반 분류, 분할, 탐색, 이동 및 조작 벤치마크에서 평가했을 때, DeFM은 최첨단 성능을 달성하고 시뮬레이션에서 실제 환경으로의 강력한 일반화 능력을 입증했습니다. 우리는 작업별 미세 조정 없이 깊이 기반 로봇 학습에 즉시 활용 가능한 모든 사전 훈련된 모델을 공개합니다. 웹페이지: https://de-fm.github.io/
English
Depth sensors are widely deployed across robotic platforms, and advances in fast, high-fidelity depth simulation have enabled robotic policies trained on depth observations to achieve robust sim-to-real transfer for a wide range of tasks. Despite this, representation learning for depth modality remains underexplored compared to RGB, where large-scale foundation models now define the state of the art. To address this gap, we present DeFM, a self-supervised foundation model trained entirely on depth images for robotic applications. Using a DINO-style self-distillation objective on a curated dataset of 60M depth images, DeFM learns geometric and semantic representations that generalize to diverse environments, tasks, and sensors. To retain metric awareness across multiple scales, we introduce a novel input normalization strategy. We further distill DeFM into compact models suitable for resource-constrained robotic systems. When evaluated on depth-based classification, segmentation, navigation, locomotion, and manipulation benchmarks, DeFM achieves state-of-the-art performance and demonstrates strong generalization from simulation to real-world environments. We release all our pretrained models, which can be adopted off-the-shelf for depth-based robotic learning without task-specific fine-tuning. Webpage: https://de-fm.github.io/