Robot Leren met Sensorimotorische Pre-training

Samenvatting

We presenteren een zelfgesuperviseerde sensorimotorische voorafgaande training aanpak voor robotica. Ons model, genaamd RPT, is een Transformer die werkt op sequenties van sensorimotorische tokens. Gegeven een reeks camerabeelden, proprioceptieve robottoestanden en eerdere acties, coderen we de afgewisselde reeks in tokens, maskeren we een willekeurige subset en trainen we een model om de gemaskeerde inhoud te voorspellen. We veronderstellen dat als de robot de ontbrekende inhoud kan voorspellen, het een goed model van de fysieke wereld heeft verworven dat het in staat stelt om te handelen. RPT is ontworpen om te werken op latente visuele representaties, wat de voorspelling hanteerbaar maakt, schaalbaarheid naar 10x grotere modellen mogelijk maakt, en inferentie op 10 Hz op een echte robot. Om onze aanpak te evalueren, verzamelen we een dataset van 20.000 real-world trajecten gedurende 9 maanden met behulp van een combinatie van bewegingsplanning en modelgebaseerde grijpalgoritmen. We constateren dat voorafgaande training op deze data consistent beter presteert dan training vanaf nul, leidt tot 2x verbeteringen in de blokstapeltaak, en gunstige schaaleigenschappen heeft.

English

We present a self-supervised sensorimotor pre-training approach for robotics. Our model, called RPT, is a Transformer that operates on sequences of sensorimotor tokens. Given a sequence of camera images, proprioceptive robot states, and past actions, we encode the interleaved sequence into tokens, mask out a random subset, and train a model to predict the masked-out content. We hypothesize that if the robot can predict the missing content it has acquired a good model of the physical world that can enable it to act. RPT is designed to operate on latent visual representations which makes prediction tractable, enables scaling to 10x larger models, and 10 Hz inference on a real robot. To evaluate our approach, we collect a dataset of 20,000 real-world trajectories over 9 months using a combination of motion planning and model-based grasping algorithms. We find that pre-training on this data consistently outperforms training from scratch, leads to 2x improvements in the block stacking task, and has favorable scaling properties.

Robot Leren met Sensorimotorische Pre-training

Robot Learning with Sensorimotor Pre-training

Samenvatting

Support