Aprendizaje Robótico con Preentrenamiento Sensoriomotor
Robot Learning with Sensorimotor Pre-training
June 16, 2023
Autores: Ilija Radosavovic, Baifeng Shi, Letian Fu, Ken Goldberg, Trevor Darrell, Jitendra Malik
cs.AI
Resumen
Presentamos un enfoque de preentrenamiento sensorimotor autosupervisado para robótica. Nuestro modelo, denominado RPT, es un Transformer que opera sobre secuencias de tokens sensorimotores. Dada una secuencia de imágenes de cámara, estados propios del robot y acciones pasadas, codificamos la secuencia intercalada en tokens, enmascaramos un subconjunto aleatorio y entrenamos un modelo para predecir el contenido enmascarado. Planteamos la hipótesis de que si el robot puede predecir el contenido faltante, ha adquirido un buen modelo del mundo físico que le permitirá actuar. RPT está diseñado para operar sobre representaciones visuales latentes, lo que hace que la predicción sea manejable, permite escalar a modelos 10 veces más grandes y realizar inferencias a 10 Hz en un robot real. Para evaluar nuestro enfoque, recopilamos un conjunto de datos de 20,000 trayectorias del mundo real durante 9 meses utilizando una combinación de algoritmos de planificación de movimiento y agarre basados en modelos. Encontramos que el preentrenamiento con estos datos supera consistentemente al entrenamiento desde cero, conduce a mejoras de 2x en la tarea de apilamiento de bloques y presenta propiedades de escalabilidad favorables.
English
We present a self-supervised sensorimotor pre-training approach for robotics.
Our model, called RPT, is a Transformer that operates on sequences of
sensorimotor tokens. Given a sequence of camera images, proprioceptive robot
states, and past actions, we encode the interleaved sequence into tokens, mask
out a random subset, and train a model to predict the masked-out content. We
hypothesize that if the robot can predict the missing content it has acquired a
good model of the physical world that can enable it to act. RPT is designed to
operate on latent visual representations which makes prediction tractable,
enables scaling to 10x larger models, and 10 Hz inference on a real robot. To
evaluate our approach, we collect a dataset of 20,000 real-world trajectories
over 9 months using a combination of motion planning and model-based grasping
algorithms. We find that pre-training on this data consistently outperforms
training from scratch, leads to 2x improvements in the block stacking task, and
has favorable scaling properties.