ChatPaper.aiChatPaper

Theia: ロボット学習のための多様な視覚基盤モデルの蒸留

Theia: Distilling Diverse Vision Foundation Models for Robot Learning

July 29, 2024
著者: Jinghuan Shang, Karl Schmeckpeper, Brandon B. May, Maria Vittoria Minniti, Tarik Kelestemur, David Watkins, Laura Herlant
cs.AI

要旨

視覚に基づくロボットポリシー学習は、視覚入力を行動にマッピングするために、分類やセグメンテーションといった単一タスクのニーズを超えた多様な視覚タスクの包括的な理解を必要とします。これに着想を得て、我々はTheiaを提案します。Theiaは、様々な視覚タスクで訓練された複数の既存の視覚基盤モデルを蒸留した、ロボット学習のための視覚基盤モデルです。Theiaの豊富な視覚表現は多様な視覚知識を符号化し、下流のロボット学習を強化します。大規模な実験により、Theiaは教師モデルや従来のロボット学習モデルを上回り、より少ない訓練データとより小さいモデルサイズで優れた性能を発揮することが示されました。さらに、事前訓練された視覚表現の品質を定量化し、特徴量ノルム分布のエントロピーが高いほどロボット学習の性能が向上するという仮説を立てました。コードとモデルはhttps://github.com/bdaiinstitute/theiaで公開されています。
English
Vision-based robot policy learning, which maps visual inputs to actions, necessitates a holistic understanding of diverse visual tasks beyond single-task needs like classification or segmentation. Inspired by this, we introduce Theia, a vision foundation model for robot learning that distills multiple off-the-shelf vision foundation models trained on varied vision tasks. Theia's rich visual representations encode diverse visual knowledge, enhancing downstream robot learning. Extensive experiments demonstrate that Theia outperforms its teacher models and prior robot learning models using less training data and smaller model sizes. Additionally, we quantify the quality of pre-trained visual representations and hypothesize that higher entropy in feature norm distributions leads to improved robot learning performance. Code and models are available at https://github.com/bdaiinstitute/theia.

Summary

AI-Generated Summary

PDF483November 28, 2024