Робототехническое обучение с сенсомоторным предварительным обучением
Robot Learning with Sensorimotor Pre-training
June 16, 2023
Авторы: Ilija Radosavovic, Baifeng Shi, Letian Fu, Ken Goldberg, Trevor Darrell, Jitendra Malik
cs.AI
Аннотация
Мы представляем подход к самообучающейся сенсомоторной предварительной подготовке для робототехники. Наша модель, названная RPT, представляет собой трансформер, работающий с последовательностями сенсомоторных токенов. Получив последовательность изображений с камеры, проприоцептивных состояний робота и прошлых действий, мы кодируем чередующуюся последовательность в токены, маскируем случайное подмножество и обучаем модель предсказывать замаскированное содержимое. Мы предполагаем, что если робот способен предсказать отсутствующее содержимое, он приобрел хорошую модель физического мира, которая позволит ему действовать. RPT разработана для работы с латентными визуальными представлениями, что делает предсказание выполнимым, позволяет масштабировать модель в 10 раз и обеспечивает выполнение выводов с частотой 10 Гц на реальном роботе. Для оценки нашего подхода мы собрали набор данных из 20 000 траекторий в реальном мире за 9 месяцев, используя комбинацию алгоритмов планирования движения и захвата на основе моделей. Мы обнаружили, что предварительная подготовка на этих данных стабильно превосходит обучение с нуля, приводит к двукратному улучшению в задаче складывания блоков и обладает благоприятными свойствами масштабирования.
English
We present a self-supervised sensorimotor pre-training approach for robotics.
Our model, called RPT, is a Transformer that operates on sequences of
sensorimotor tokens. Given a sequence of camera images, proprioceptive robot
states, and past actions, we encode the interleaved sequence into tokens, mask
out a random subset, and train a model to predict the masked-out content. We
hypothesize that if the robot can predict the missing content it has acquired a
good model of the physical world that can enable it to act. RPT is designed to
operate on latent visual representations which makes prediction tractable,
enables scaling to 10x larger models, and 10 Hz inference on a real robot. To
evaluate our approach, we collect a dataset of 20,000 real-world trajectories
over 9 months using a combination of motion planning and model-based grasping
algorithms. We find that pre-training on this data consistently outperforms
training from scratch, leads to 2x improvements in the block stacking task, and
has favorable scaling properties.