Theia : Distillation de modèles de fondation visuels diversifiés pour l'apprentissage robotique
Theia: Distilling Diverse Vision Foundation Models for Robot Learning
July 29, 2024
Auteurs: Jinghuan Shang, Karl Schmeckpeper, Brandon B. May, Maria Vittoria Minniti, Tarik Kelestemur, David Watkins, Laura Herlant
cs.AI
Résumé
L'apprentissage de politiques robotiques basé sur la vision, qui associe des entrées visuelles à des actions, nécessite une compréhension globale de diverses tâches visuelles, allant au-delà des besoins spécifiques comme la classification ou la segmentation. Inspirés par cela, nous présentons Theia, un modèle de fondation visuel pour l'apprentissage robotique, qui distille plusieurs modèles de fondation visuels préexistants entraînés sur des tâches visuelles variées. Les représentations visuelles riches de Theia encodent une connaissance visuelle diversifiée, améliorant ainsi l'apprentissage robotique en aval. Des expériences approfondies démontrent que Theia surpasse ses modèles enseignants et les modèles d'apprentissage robotique antérieurs, tout en utilisant moins de données d'entraînement et des tailles de modèle réduites. De plus, nous quantifions la qualité des représentations visuelles pré-entraînées et émettons l'hypothèse qu'une entropie plus élevée dans les distributions de normes de caractéristiques conduit à une meilleure performance d'apprentissage robotique. Le code et les modèles sont disponibles à l'adresse https://github.com/bdaiinstitute/theia.
English
Vision-based robot policy learning, which maps visual inputs to actions,
necessitates a holistic understanding of diverse visual tasks beyond
single-task needs like classification or segmentation. Inspired by this, we
introduce Theia, a vision foundation model for robot learning that distills
multiple off-the-shelf vision foundation models trained on varied vision tasks.
Theia's rich visual representations encode diverse visual knowledge, enhancing
downstream robot learning. Extensive experiments demonstrate that Theia
outperforms its teacher models and prior robot learning models using less
training data and smaller model sizes. Additionally, we quantify the quality of
pre-trained visual representations and hypothesize that higher entropy in
feature norm distributions leads to improved robot learning performance. Code
and models are available at https://github.com/bdaiinstitute/theia.Summary
AI-Generated Summary