Apprentissage robotique avec pré-entraînement sensorimoteur
Robot Learning with Sensorimotor Pre-training
June 16, 2023
Auteurs: Ilija Radosavovic, Baifeng Shi, Letian Fu, Ken Goldberg, Trevor Darrell, Jitendra Malik
cs.AI
Résumé
Nous présentons une approche de pré-entraînement sensorimoteur auto-supervisé pour la robotique. Notre modèle, appelé RPT, est un Transformer qui opère sur des séquences de tokens sensorimoteurs. Étant donné une séquence d'images de caméra, d'états proprioceptifs du robot et d'actions passées, nous encodons la séquence entrelacée en tokens, masquons un sous-ensemble aléatoire, et entraînons un modèle à prédire le contenu masqué. Nous émettons l'hypothèse que si le robot peut prédire le contenu manquant, il a acquis un bon modèle du monde physique qui peut lui permettre d'agir. RPT est conçu pour fonctionner sur des représentations visuelles latentes, ce qui rend la prédiction réalisable, permet de passer à des modèles 10 fois plus grands, et d'effectuer des inférences à 10 Hz sur un robot réel. Pour évaluer notre approche, nous collectons un ensemble de données de 20 000 trajectoires dans le monde réel sur 9 mois en utilisant une combinaison d'algorithmes de planification de mouvement et de préhension basés sur des modèles. Nous constatons que le pré-entraînement sur ces données surpasse systématiquement l'entraînement à partir de zéro, conduit à des améliorations de 2 fois dans la tâche d'empilage de blocs, et présente des propriétés d'échelle favorables.
English
We present a self-supervised sensorimotor pre-training approach for robotics.
Our model, called RPT, is a Transformer that operates on sequences of
sensorimotor tokens. Given a sequence of camera images, proprioceptive robot
states, and past actions, we encode the interleaved sequence into tokens, mask
out a random subset, and train a model to predict the masked-out content. We
hypothesize that if the robot can predict the missing content it has acquired a
good model of the physical world that can enable it to act. RPT is designed to
operate on latent visual representations which makes prediction tractable,
enables scaling to 10x larger models, and 10 Hz inference on a real robot. To
evaluate our approach, we collect a dataset of 20,000 real-world trajectories
over 9 months using a combination of motion planning and model-based grasping
algorithms. We find that pre-training on this data consistently outperforms
training from scratch, leads to 2x improvements in the block stacking task, and
has favorable scaling properties.