ChatPaper.aiChatPaper

Theia: Distillazione di Modelli di Fondamento Visivi Diversificati per l'Apprendimento Robotico

Theia: Distilling Diverse Vision Foundation Models for Robot Learning

July 29, 2024
Autori: Jinghuan Shang, Karl Schmeckpeper, Brandon B. May, Maria Vittoria Minniti, Tarik Kelestemur, David Watkins, Laura Herlant
cs.AI

Abstract

L'apprendimento di politiche robotiche basate sulla visione, che mappa input visivi ad azioni, richiede una comprensione olistica di compiti visivi diversificati, andando oltre le esigenze di singoli compiti come la classificazione o la segmentazione. Ispirati da ciò, introduciamo Theia, un modello di fondazione visiva per l'apprendimento robotico che distilla molteplici modelli di fondazione visiva preesistenti, addestrati su vari compiti visivi. Le ricche rappresentazioni visive di Theia codificano una conoscenza visiva diversificata, migliorando l'apprendimento robotico a valle. Esperimenti estensivi dimostrano che Theia supera i suoi modelli insegnanti e i precedenti modelli di apprendimento robotico, utilizzando meno dati di addestramento e dimensioni di modello più ridotte. Inoltre, quantifichiamo la qualità delle rappresentazioni visive pre-addestrate e ipotizziamo che un'entropia più elevata nelle distribuzioni delle norme delle caratteristiche porti a una migliore prestazione nell'apprendimento robotico. Codice e modelli sono disponibili all'indirizzo https://github.com/bdaiinstitute/theia.
English
Vision-based robot policy learning, which maps visual inputs to actions, necessitates a holistic understanding of diverse visual tasks beyond single-task needs like classification or segmentation. Inspired by this, we introduce Theia, a vision foundation model for robot learning that distills multiple off-the-shelf vision foundation models trained on varied vision tasks. Theia's rich visual representations encode diverse visual knowledge, enhancing downstream robot learning. Extensive experiments demonstrate that Theia outperforms its teacher models and prior robot learning models using less training data and smaller model sizes. Additionally, we quantify the quality of pre-trained visual representations and hypothesize that higher entropy in feature norm distributions leads to improved robot learning performance. Code and models are available at https://github.com/bdaiinstitute/theia.
PDF473November 28, 2024