Theia: Distillazione di Modelli di Fondamento Visivi Diversificati per l'Apprendimento Robotico
Theia: Distilling Diverse Vision Foundation Models for Robot Learning
July 29, 2024
Autori: Jinghuan Shang, Karl Schmeckpeper, Brandon B. May, Maria Vittoria Minniti, Tarik Kelestemur, David Watkins, Laura Herlant
cs.AI
Abstract
L'apprendimento di politiche robotiche basate sulla visione, che mappa input visivi ad azioni, richiede una comprensione olistica di compiti visivi diversificati, andando oltre le esigenze di singoli compiti come la classificazione o la segmentazione. Ispirati da ciò, introduciamo Theia, un modello di fondazione visiva per l'apprendimento robotico che distilla molteplici modelli di fondazione visiva preesistenti, addestrati su vari compiti visivi. Le ricche rappresentazioni visive di Theia codificano una conoscenza visiva diversificata, migliorando l'apprendimento robotico a valle. Esperimenti estensivi dimostrano che Theia supera i suoi modelli insegnanti e i precedenti modelli di apprendimento robotico, utilizzando meno dati di addestramento e dimensioni di modello più ridotte. Inoltre, quantifichiamo la qualità delle rappresentazioni visive pre-addestrate e ipotizziamo che un'entropia più elevata nelle distribuzioni delle norme delle caratteristiche porti a una migliore prestazione nell'apprendimento robotico. Codice e modelli sono disponibili all'indirizzo https://github.com/bdaiinstitute/theia.
English
Vision-based robot policy learning, which maps visual inputs to actions,
necessitates a holistic understanding of diverse visual tasks beyond
single-task needs like classification or segmentation. Inspired by this, we
introduce Theia, a vision foundation model for robot learning that distills
multiple off-the-shelf vision foundation models trained on varied vision tasks.
Theia's rich visual representations encode diverse visual knowledge, enhancing
downstream robot learning. Extensive experiments demonstrate that Theia
outperforms its teacher models and prior robot learning models using less
training data and smaller model sizes. Additionally, we quantify the quality of
pre-trained visual representations and hypothesize that higher entropy in
feature norm distributions leads to improved robot learning performance. Code
and models are available at https://github.com/bdaiinstitute/theia.