Aprendizado de Robôs com Pré-treinamento Sensório-Motor
Robot Learning with Sensorimotor Pre-training
June 16, 2023
Autores: Ilija Radosavovic, Baifeng Shi, Letian Fu, Ken Goldberg, Trevor Darrell, Jitendra Malik
cs.AI
Resumo
Apresentamos uma abordagem de pré-treinamento sensorimotor auto-supervisionado para robótica. Nosso modelo, chamado RPT, é um Transformer que opera em sequências de tokens sensorimotores. Dada uma sequência de imagens de câmera, estados proprioceptivos do robô e ações passadas, codificamos a sequência intercalada em tokens, ocultamos um subconjunto aleatório e treinamos um modelo para prever o conteúdo oculto. Nossa hipótese é que, se o robô conseguir prever o conteúdo ausente, ele adquiriu um bom modelo do mundo físico que pode capacitá-lo a agir. O RPT foi projetado para operar em representações visuais latentes, o que torna a previsão viável, permite a escalabilidade para modelos 10 vezes maiores e a inferência em 10 Hz em um robô real. Para avaliar nossa abordagem, coletamos um conjunto de dados de 20.000 trajetórias do mundo real ao longo de 9 meses, utilizando uma combinação de algoritmos de planejamento de movimento e de agarramento baseado em modelo. Descobrimos que o pré-treinamento nesses dados consistentemente supera o treinamento a partir do zero, leva a melhorias de 2x na tarefa de empilhamento de blocos e possui propriedades de escalabilidade favoráveis.
English
We present a self-supervised sensorimotor pre-training approach for robotics.
Our model, called RPT, is a Transformer that operates on sequences of
sensorimotor tokens. Given a sequence of camera images, proprioceptive robot
states, and past actions, we encode the interleaved sequence into tokens, mask
out a random subset, and train a model to predict the masked-out content. We
hypothesize that if the robot can predict the missing content it has acquired a
good model of the physical world that can enable it to act. RPT is designed to
operate on latent visual representations which makes prediction tractable,
enables scaling to 10x larger models, and 10 Hz inference on a real robot. To
evaluate our approach, we collect a dataset of 20,000 real-world trajectories
over 9 months using a combination of motion planning and model-based grasping
algorithms. We find that pre-training on this data consistently outperforms
training from scratch, leads to 2x improvements in the block stacking task, and
has favorable scaling properties.