Aprendizado de Robôs com Pré-treinamento Sensório-Motor

Resumo

Apresentamos uma abordagem de pré-treinamento sensorimotor auto-supervisionado para robótica. Nosso modelo, chamado RPT, é um Transformer que opera em sequências de tokens sensorimotores. Dada uma sequência de imagens de câmera, estados proprioceptivos do robô e ações passadas, codificamos a sequência intercalada em tokens, ocultamos um subconjunto aleatório e treinamos um modelo para prever o conteúdo oculto. Nossa hipótese é que, se o robô conseguir prever o conteúdo ausente, ele adquiriu um bom modelo do mundo físico que pode capacitá-lo a agir. O RPT foi projetado para operar em representações visuais latentes, o que torna a previsão viável, permite a escalabilidade para modelos 10 vezes maiores e a inferência em 10 Hz em um robô real. Para avaliar nossa abordagem, coletamos um conjunto de dados de 20.000 trajetórias do mundo real ao longo de 9 meses, utilizando uma combinação de algoritmos de planejamento de movimento e de agarramento baseado em modelo. Descobrimos que o pré-treinamento nesses dados consistentemente supera o treinamento a partir do zero, leva a melhorias de 2x na tarefa de empilhamento de blocos e possui propriedades de escalabilidade favoráveis.

English

We present a self-supervised sensorimotor pre-training approach for robotics. Our model, called RPT, is a Transformer that operates on sequences of sensorimotor tokens. Given a sequence of camera images, proprioceptive robot states, and past actions, we encode the interleaved sequence into tokens, mask out a random subset, and train a model to predict the masked-out content. We hypothesize that if the robot can predict the missing content it has acquired a good model of the physical world that can enable it to act. RPT is designed to operate on latent visual representations which makes prediction tractable, enables scaling to 10x larger models, and 10 Hz inference on a real robot. To evaluate our approach, we collect a dataset of 20,000 real-world trajectories over 9 months using a combination of motion planning and model-based grasping algorithms. We find that pre-training on this data consistently outperforms training from scratch, leads to 2x improvements in the block stacking task, and has favorable scaling properties.

Aprendizado de Robôs com Pré-treinamento Sensório-Motor

Robot Learning with Sensorimotor Pre-training

Resumo

Support