Theia: Destilando Modelos Fundamentais de Visão Diversos para Aprendizado de Robôs
Theia: Distilling Diverse Vision Foundation Models for Robot Learning
July 29, 2024
Autores: Jinghuan Shang, Karl Schmeckpeper, Brandon B. May, Maria Vittoria Minniti, Tarik Kelestemur, David Watkins, Laura Herlant
cs.AI
Resumo
A aprendizagem de políticas de robô baseadas em visão, que mapeia entradas visuais para ações, exige uma compreensão holística de diversas tarefas visuais além das necessidades de tarefas únicas como classificação ou segmentação. Inspirados por isso, apresentamos o Theia, um modelo de base visual para aprendizagem de robôs que destila múltiplos modelos de base visual prontos para uso treinados em tarefas visuais variadas. As representações visuais ricas do Theia codificam conhecimento visual diversificado, aprimorando a aprendizagem de robôs subsequentes. Experimentos extensivos demonstram que o Theia supera seus modelos professores e modelos anteriores de aprendizagem de robôs usando menos dados de treinamento e tamanhos de modelo menores. Além disso, quantificamos a qualidade das representações visuais pré-treinadas e hipotetizamos que uma maior entropia nas distribuições de norma de características leva a um desempenho aprimorado na aprendizagem de robôs. O código e os modelos estão disponíveis em https://github.com/bdaiinstitute/theia.
English
Vision-based robot policy learning, which maps visual inputs to actions,
necessitates a holistic understanding of diverse visual tasks beyond
single-task needs like classification or segmentation. Inspired by this, we
introduce Theia, a vision foundation model for robot learning that distills
multiple off-the-shelf vision foundation models trained on varied vision tasks.
Theia's rich visual representations encode diverse visual knowledge, enhancing
downstream robot learning. Extensive experiments demonstrate that Theia
outperforms its teacher models and prior robot learning models using less
training data and smaller model sizes. Additionally, we quantify the quality of
pre-trained visual representations and hypothesize that higher entropy in
feature norm distributions leads to improved robot learning performance. Code
and models are available at https://github.com/bdaiinstitute/theia.Summary
AI-Generated Summary