Robot Leren met Sensorimotorische Pre-training
Robot Learning with Sensorimotor Pre-training
June 16, 2023
Auteurs: Ilija Radosavovic, Baifeng Shi, Letian Fu, Ken Goldberg, Trevor Darrell, Jitendra Malik
cs.AI
Samenvatting
We presenteren een zelfgesuperviseerde sensorimotorische voorafgaande training aanpak voor robotica. Ons model, genaamd RPT, is een Transformer die werkt op sequenties van sensorimotorische tokens. Gegeven een reeks camerabeelden, proprioceptieve robottoestanden en eerdere acties, coderen we de afgewisselde reeks in tokens, maskeren we een willekeurige subset en trainen we een model om de gemaskeerde inhoud te voorspellen. We veronderstellen dat als de robot de ontbrekende inhoud kan voorspellen, het een goed model van de fysieke wereld heeft verworven dat het in staat stelt om te handelen. RPT is ontworpen om te werken op latente visuele representaties, wat de voorspelling hanteerbaar maakt, schaalbaarheid naar 10x grotere modellen mogelijk maakt, en inferentie op 10 Hz op een echte robot. Om onze aanpak te evalueren, verzamelen we een dataset van 20.000 real-world trajecten gedurende 9 maanden met behulp van een combinatie van bewegingsplanning en modelgebaseerde grijpalgoritmen. We constateren dat voorafgaande training op deze data consistent beter presteert dan training vanaf nul, leidt tot 2x verbeteringen in de blokstapeltaak, en gunstige schaaleigenschappen heeft.
English
We present a self-supervised sensorimotor pre-training approach for robotics.
Our model, called RPT, is a Transformer that operates on sequences of
sensorimotor tokens. Given a sequence of camera images, proprioceptive robot
states, and past actions, we encode the interleaved sequence into tokens, mask
out a random subset, and train a model to predict the masked-out content. We
hypothesize that if the robot can predict the missing content it has acquired a
good model of the physical world that can enable it to act. RPT is designed to
operate on latent visual representations which makes prediction tractable,
enables scaling to 10x larger models, and 10 Hz inference on a real robot. To
evaluate our approach, we collect a dataset of 20,000 real-world trajectories
over 9 months using a combination of motion planning and model-based grasping
algorithms. We find that pre-training on this data consistently outperforms
training from scratch, leads to 2x improvements in the block stacking task, and
has favorable scaling properties.