ChatPaper.aiChatPaper

Robotik-Lernen mit sensomotorischem Pre-Training

Robot Learning with Sensorimotor Pre-training

June 16, 2023
Autoren: Ilija Radosavovic, Baifeng Shi, Letian Fu, Ken Goldberg, Trevor Darrell, Jitendra Malik
cs.AI

Zusammenfassung

Wir präsentieren einen selbstüberwachten sensomotorischen Vorverarbeitungsansatz für die Robotik. Unser Modell, genannt RPT, ist ein Transformer, der auf Sequenzen von sensomotorischen Tokens operiert. Gegeben eine Sequenz von Kamerabildern, propriozeptiven Robotzuständen und vergangenen Aktionen, kodieren wir die verschachtelte Sequenz in Tokens, maskieren eine zufällige Teilmenge aus und trainieren ein Modell, um die maskierten Inhalte vorherzusagen. Wir stellen die Hypothese auf, dass der Roboter, wenn er die fehlenden Inhalte vorhersagen kann, ein gutes Modell der physischen Welt erworben hat, das es ihm ermöglicht, zu handeln. RPT ist darauf ausgelegt, auf latenten visuellen Repräsentationen zu operieren, was die Vorhersage handhabbar macht, die Skalierung auf 10x größere Modelle ermöglicht und eine Inferenz mit 10 Hz auf einem realen Roboter erlaubt. Um unseren Ansatz zu evaluieren, sammeln wir über einen Zeitraum von 9 Monaten einen Datensatz von 20.000 realen Trajektorien unter Verwendung einer Kombination aus Bewegungsplanung und modellbasierten Greifalgorithmen. Wir stellen fest, dass die Vorverarbeitung auf diesen Daten durchweg besser abschneidet als das Training von Grund auf, zu 2x Verbesserungen in der Blockstapelaufgabe führt und vorteilhafte Skalierungseigenschaften aufweist.
English
We present a self-supervised sensorimotor pre-training approach for robotics. Our model, called RPT, is a Transformer that operates on sequences of sensorimotor tokens. Given a sequence of camera images, proprioceptive robot states, and past actions, we encode the interleaved sequence into tokens, mask out a random subset, and train a model to predict the masked-out content. We hypothesize that if the robot can predict the missing content it has acquired a good model of the physical world that can enable it to act. RPT is designed to operate on latent visual representations which makes prediction tractable, enables scaling to 10x larger models, and 10 Hz inference on a real robot. To evaluate our approach, we collect a dataset of 20,000 real-world trajectories over 9 months using a combination of motion planning and model-based grasping algorithms. We find that pre-training on this data consistently outperforms training from scratch, leads to 2x improvements in the block stacking task, and has favorable scaling properties.
PDF130December 15, 2024