DeFM: Обучение базовым представлениям на основе данных о глубине для робототехники
DeFM: Learning Foundation Representations from Depth for Robotics
January 26, 2026
Авторы: Manthan Patel, Jonas Frey, Mayank Mittal, Fan Yang, Alexander Hansson, Amir Bar, Cesar Cadena, Marco Hutter
cs.AI
Аннотация
Датчики глубины широко используются в робототехнических платформах, а достижения в области быстрого и высокоточного моделирования глубины позволили политикам управления, обученным на данных о глубине, достигать надежного переноса из симуляции в реальность для широкого спектра задач. Несмотря на это, обучение представлений для модальности глубины остается недостаточно изученным по сравнению с RGB, где крупномасштабные фундаментальные модели в настоящее время определяют состояние дел в области. Чтобы восполнить этот пробел, мы представляем DeFM — самоконтролируемую фундаментальную модель, полностью обученную на изображениях глубины для робототехнических приложений. Используя цель самодистилляции в стиле DINO на курированном наборе данных из 60 миллионов изображений глубины, DeFM изучает геометрические и семантические представления, которые обобщаются для различных сред, задач и сенсоров. Чтобы сохранить метрическую осведомленность на множестве масштабов, мы вводим новую стратегию нормализации входных данных. Мы также дистиллируем DeFM в компактные модели, пригодные для робототехнических систем с ограниченными ресурсами. При оценке на бенчмарках классификации, сегментации, навигации, локомоции и манипулирования на основе глубины DeFM демонстрирует наилучшую производительность и сильную обобщающую способность от симуляции к реальным условиям. Мы публикуем все наши предварительно обученные модели, которые можно использовать "из коробки" для обучения роботов на основе данных глубины без специфичной для задачи дообучки. Веб-страница: https://de-fm.github.io/
English
Depth sensors are widely deployed across robotic platforms, and advances in fast, high-fidelity depth simulation have enabled robotic policies trained on depth observations to achieve robust sim-to-real transfer for a wide range of tasks. Despite this, representation learning for depth modality remains underexplored compared to RGB, where large-scale foundation models now define the state of the art. To address this gap, we present DeFM, a self-supervised foundation model trained entirely on depth images for robotic applications. Using a DINO-style self-distillation objective on a curated dataset of 60M depth images, DeFM learns geometric and semantic representations that generalize to diverse environments, tasks, and sensors. To retain metric awareness across multiple scales, we introduce a novel input normalization strategy. We further distill DeFM into compact models suitable for resource-constrained robotic systems. When evaluated on depth-based classification, segmentation, navigation, locomotion, and manipulation benchmarks, DeFM achieves state-of-the-art performance and demonstrates strong generalization from simulation to real-world environments. We release all our pretrained models, which can be adopted off-the-shelf for depth-based robotic learning without task-specific fine-tuning. Webpage: https://de-fm.github.io/