ChatPaper.aiChatPaper

Body Transformer : Exploiter l'incarnation robotique pour l'apprentissage de politiques

Body Transformer: Leveraging Robot Embodiment for Policy Learning

August 12, 2024
Auteurs: Carmelo Sferrazza, Dun-Ming Huang, Fangchen Liu, Jongmin Lee, Pieter Abbeel
cs.AI

Résumé

Ces dernières années, l'architecture de type transformer est devenue la norme de facto pour les algorithmes d'apprentissage automatique appliqués au traitement du langage naturel et à la vision par ordinateur. Malgré des preuves notables de déploiement réussi de cette architecture dans le contexte de l'apprentissage robotique, nous affirmons que les transformers classiques n'exploitent pas pleinement la structure du problème d'apprentissage robotique. Par conséquent, nous proposons le Body Transformer (BoT), une architecture qui tire parti de l'incarnation du robot en fournissant un biais inductif qui guide le processus d'apprentissage. Nous représentons le corps du robot sous forme de graphe de capteurs et d'actionneurs, et nous nous appuyons sur l'attention masquée pour agréger l'information à travers l'architecture. L'architecture résultante surpasse le transformer classique, ainsi que le perceptron multicouche traditionnel, en termes d'accomplissement des tâches, de propriétés d'échelle et d'efficacité computationnelle lors de la représentation de politiques d'apprentissage par imitation ou par renforcement. Du matériel supplémentaire, incluant le code open-source, est disponible à l'adresse https://sferrazza.cc/bot_site.
English
In recent years, the transformer architecture has become the de facto standard for machine learning algorithms applied to natural language processing and computer vision. Despite notable evidence of successful deployment of this architecture in the context of robot learning, we claim that vanilla transformers do not fully exploit the structure of the robot learning problem. Therefore, we propose Body Transformer (BoT), an architecture that leverages the robot embodiment by providing an inductive bias that guides the learning process. We represent the robot body as a graph of sensors and actuators, and rely on masked attention to pool information throughout the architecture. The resulting architecture outperforms the vanilla transformer, as well as the classical multilayer perceptron, in terms of task completion, scaling properties, and computational efficiency when representing either imitation or reinforcement learning policies. Additional material including the open-source code is available at https://sferrazza.cc/bot_site.

Summary

AI-Generated Summary

PDF102November 28, 2024