ChatPaper.aiChatPaper

Theia: 로봇 학습을 위한 다양한 비전 기반 모델의 정제

Theia: Distilling Diverse Vision Foundation Models for Robot Learning

July 29, 2024
저자: Jinghuan Shang, Karl Schmeckpeper, Brandon B. May, Maria Vittoria Minniti, Tarik Kelestemur, David Watkins, Laura Herlant
cs.AI

초록

시각 입력을 동작으로 매핑하는 시각 기반 로봇 정책 학습은 분류나 분할과 같은 단일 작업 요구를 넘어 다양한 시각 작업에 대한 포괄적인 이해를 필요로 합니다. 이에 영감을 받아, 우리는 다양한 시각 작업에 대해 훈련된 여러 기성 시각 기반 모델을 정제한 로봇 학습용 시각 기반 모델인 Theia를 소개합니다. Theia의 풍부한 시각 표현은 다양한 시각 지식을 인코딩하여 하위 로봇 학습을 향상시킵니다. 광범위한 실험을 통해 Theia가 더 적은 훈련 데이터와 더 작은 모델 크기를 사용하면서도 기존 교사 모델과 이전 로봇 학습 모델을 능가함을 입증했습니다. 또한, 사전 훈련된 시각 표현의 품질을 정량화하고, 특징 노름 분포에서 더 높은 엔트로피가 로봇 학습 성능 향상으로 이어진다는 가설을 제시합니다. 코드와 모델은 https://github.com/bdaiinstitute/theia에서 확인할 수 있습니다.
English
Vision-based robot policy learning, which maps visual inputs to actions, necessitates a holistic understanding of diverse visual tasks beyond single-task needs like classification or segmentation. Inspired by this, we introduce Theia, a vision foundation model for robot learning that distills multiple off-the-shelf vision foundation models trained on varied vision tasks. Theia's rich visual representations encode diverse visual knowledge, enhancing downstream robot learning. Extensive experiments demonstrate that Theia outperforms its teacher models and prior robot learning models using less training data and smaller model sizes. Additionally, we quantify the quality of pre-trained visual representations and hypothesize that higher entropy in feature norm distributions leads to improved robot learning performance. Code and models are available at https://github.com/bdaiinstitute/theia.

Summary

AI-Generated Summary

PDF483November 28, 2024