ChatPaper.aiChatPaper

DeFM: ロボティクスにおける深度からの基盤表現学習

DeFM: Learning Foundation Representations from Depth for Robotics

January 26, 2026
著者: Manthan Patel, Jonas Frey, Mayank Mittal, Fan Yang, Alexander Hansson, Amir Bar, Cesar Cadena, Marco Hutter
cs.AI

要旨

深度センサーはロボットプラットフォームに広く搭載されており、高速かつ高精細な深度シミュレーション技術の進歩により、深度観測データで訓練されたロボットポリシーが多様なタスクにおいて強固なシミュレーションtoリアル転移を実現している。しかしながら、深度モダリティの表現学習は、大規模基盤モデルが最新技術を定義するRGBモダリティと比較して未開拓の領域である。この課題に対処するため、我々はロボット応用向けに深度画像のみで完全に訓練された自己教師あり基盤モデルDeFMを提案する。選別された6000万枚の深度画像データセットに対しDINOスタイルの自己蒸留目標を用いることで、DeFMは多様な環境・タスク・センサーに汎化する幾何学的および意味的表現を学習する。複数スケールにわたる計量認識を保持するため、新規の入力正規化戦略を導入する。さらに、リソース制約の厳しいロボットシステムに適したコンパクトモデルへDeFMを蒸留する。深度ベースの分類、セグメンテーション、ナビゲーション、移動、把持のベンチマーク評価において、DeFMは最高水準の性能を達成し、シミュレーションから実世界環境への強力な汎化能力を示す。我々は全ての事前学習モデルを公開し、タスク固有のファインチューニングなしで深度ベースのロボット学習に即座に利用可能とする。Webページ: https://de-fm.github.io/
English
Depth sensors are widely deployed across robotic platforms, and advances in fast, high-fidelity depth simulation have enabled robotic policies trained on depth observations to achieve robust sim-to-real transfer for a wide range of tasks. Despite this, representation learning for depth modality remains underexplored compared to RGB, where large-scale foundation models now define the state of the art. To address this gap, we present DeFM, a self-supervised foundation model trained entirely on depth images for robotic applications. Using a DINO-style self-distillation objective on a curated dataset of 60M depth images, DeFM learns geometric and semantic representations that generalize to diverse environments, tasks, and sensors. To retain metric awareness across multiple scales, we introduce a novel input normalization strategy. We further distill DeFM into compact models suitable for resource-constrained robotic systems. When evaluated on depth-based classification, segmentation, navigation, locomotion, and manipulation benchmarks, DeFM achieves state-of-the-art performance and demonstrates strong generalization from simulation to real-world environments. We release all our pretrained models, which can be adopted off-the-shelf for depth-based robotic learning without task-specific fine-tuning. Webpage: https://de-fm.github.io/
PDF11January 29, 2026