RoboCat : Un agent fondamental auto-améliorant pour la manipulation robotique

Résumé

La capacité à exploiter des expériences robotiques hétérogènes provenant de différents robots et tâches pour maîtriser rapidement de nouvelles compétences et incarnations a le potentiel de transformer l'apprentissage robotique. Inspirés par les récentes avancées dans les modèles de base pour la vision et le langage, nous proposons un agent de base pour la manipulation robotique. Cet agent, nommé RoboCat, est un transformateur de décision conditionné par un objectif visuel, capable de consommer des expériences visuelles étiquetées avec des actions multi-incarnations. Ces données couvrent un large répertoire de compétences en contrôle moteur provenant de bras robotiques simulés et réels avec différents ensembles d'observations et d'actions. Avec RoboCat, nous démontrons la capacité à généraliser à de nouvelles tâches et robots, à la fois en mode zero-shot ainsi qu'à travers une adaptation utilisant seulement 100 à 1000 exemples pour la tâche cible. Nous montrons également comment un modèle entraîné peut lui-même être utilisé pour générer des données pour les itérations de formation ultérieures, fournissant ainsi un élément de base pour une boucle d'amélioration autonome. Nous étudions les capacités de l'agent, avec des évaluations à grande échelle à la fois en simulation et sur trois incarnations différentes de robots réels. Nous constatons qu'à mesure que nous augmentons et diversifions ses données d'entraînement, RoboCat montre non seulement des signes de transfert inter-tâches, mais devient également plus efficace pour s'adapter à de nouvelles tâches.

English

The ability to leverage heterogeneous robotic experience from different robots and tasks to quickly master novel skills and embodiments has the potential to transform robot learning. Inspired by recent advances in foundation models for vision and language, we propose a foundation agent for robotic manipulation. This agent, named RoboCat, is a visual goal-conditioned decision transformer capable of consuming multi-embodiment action-labelled visual experience. This data spans a large repertoire of motor control skills from simulated and real robotic arms with varying sets of observations and actions. With RoboCat, we demonstrate the ability to generalise to new tasks and robots, both zero-shot as well as through adaptation using only 100--1000 examples for the target task. We also show how a trained model itself can be used to generate data for subsequent training iterations, thus providing a basic building block for an autonomous improvement loop. We investigate the agent's capabilities, with large-scale evaluations both in simulation and on three different real robot embodiments. We find that as we grow and diversify its training data, RoboCat not only shows signs of cross-task transfer, but also becomes more efficient at adapting to new tasks.

RoboCat : Un agent fondamental auto-améliorant pour la manipulation robotique

RoboCat: A Self-Improving Foundation Agent for Robotic Manipulation

Résumé

Support