ChatPaper.aiChatPaper

Apprendimento Robotico con Pre-addestramento Sensomotorio

Robot Learning with Sensorimotor Pre-training

June 16, 2023
Autori: Ilija Radosavovic, Baifeng Shi, Letian Fu, Ken Goldberg, Trevor Darrell, Jitendra Malik
cs.AI

Abstract

Presentiamo un approccio di pre-addestramento sensorimotorio auto-supervisionato per la robotica. Il nostro modello, denominato RPT, è un Transformer che opera su sequenze di token sensorimotori. Data una sequenza di immagini della telecamera, stati propriocettivi del robot e azioni passate, codifichiamo la sequenza intervallata in token, mascheriamo un sottoinsieme casuale e addestriamo un modello a prevedere il contenuto mascherato. Ipotesizziamo che se il robot è in grado di prevedere il contenuto mancante, abbia acquisito un buon modello del mondo fisico che gli consente di agire. RPT è progettato per operare su rappresentazioni visive latenti, il che rende la previsione trattabile, consente di scalare a modelli 10 volte più grandi e di eseguire inferenze a 10 Hz su un robot reale. Per valutare il nostro approccio, abbiamo raccolto un dataset di 20.000 traiettorie del mondo reale in 9 mesi utilizzando una combinazione di algoritmi di pianificazione del movimento e di presa basati su modelli. Rileviamo che il pre-addestramento su questi dati supera costantemente l'addestramento da zero, porta a miglioramenti di 2 volte nel compito di impilamento di blocchi e presenta proprietà di scalabilità favorevoli.
English
We present a self-supervised sensorimotor pre-training approach for robotics. Our model, called RPT, is a Transformer that operates on sequences of sensorimotor tokens. Given a sequence of camera images, proprioceptive robot states, and past actions, we encode the interleaved sequence into tokens, mask out a random subset, and train a model to predict the masked-out content. We hypothesize that if the robot can predict the missing content it has acquired a good model of the physical world that can enable it to act. RPT is designed to operate on latent visual representations which makes prediction tractable, enables scaling to 10x larger models, and 10 Hz inference on a real robot. To evaluate our approach, we collect a dataset of 20,000 real-world trajectories over 9 months using a combination of motion planning and model-based grasping algorithms. We find that pre-training on this data consistently outperforms training from scratch, leads to 2x improvements in the block stacking task, and has favorable scaling properties.
PDF130December 15, 2024