Theia: ロボット学習のための多様な視覚基盤モデルの蒸留
Theia: Distilling Diverse Vision Foundation Models for Robot Learning
July 29, 2024
著者: Jinghuan Shang, Karl Schmeckpeper, Brandon B. May, Maria Vittoria Minniti, Tarik Kelestemur, David Watkins, Laura Herlant
cs.AI
要旨
視覚に基づくロボットポリシー学習は、視覚入力を行動にマッピングするために、分類やセグメンテーションといった単一タスクのニーズを超えた多様な視覚タスクの包括的な理解を必要とします。これに着想を得て、我々はTheiaを提案します。Theiaは、様々な視覚タスクで訓練された複数の既存の視覚基盤モデルを蒸留した、ロボット学習のための視覚基盤モデルです。Theiaの豊富な視覚表現は多様な視覚知識を符号化し、下流のロボット学習を強化します。大規模な実験により、Theiaは教師モデルや従来のロボット学習モデルを上回り、より少ない訓練データとより小さいモデルサイズで優れた性能を発揮することが示されました。さらに、事前訓練された視覚表現の品質を定量化し、特徴量ノルム分布のエントロピーが高いほどロボット学習の性能が向上するという仮説を立てました。コードとモデルはhttps://github.com/bdaiinstitute/theiaで公開されています。
English
Vision-based robot policy learning, which maps visual inputs to actions,
necessitates a holistic understanding of diverse visual tasks beyond
single-task needs like classification or segmentation. Inspired by this, we
introduce Theia, a vision foundation model for robot learning that distills
multiple off-the-shelf vision foundation models trained on varied vision tasks.
Theia's rich visual representations encode diverse visual knowledge, enhancing
downstream robot learning. Extensive experiments demonstrate that Theia
outperforms its teacher models and prior robot learning models using less
training data and smaller model sizes. Additionally, we quantify the quality of
pre-trained visual representations and hypothesize that higher entropy in
feature norm distributions leads to improved robot learning performance. Code
and models are available at https://github.com/bdaiinstitute/theia.Summary
AI-Generated Summary