ChatPaper.aiChatPaper

Body Transformer: Sfruttare l'Embodiment Robotico per l'Apprendimento delle Politiche

Body Transformer: Leveraging Robot Embodiment for Policy Learning

August 12, 2024
Autori: Carmelo Sferrazza, Dun-Ming Huang, Fangchen Liu, Jongmin Lee, Pieter Abbeel
cs.AI

Abstract

Negli ultimi anni, l'architettura transformer è diventata lo standard de facto per gli algoritmi di apprendimento automatico applicati all'elaborazione del linguaggio naturale e alla visione artificiale. Nonostante ci siano prove significative del successo di questa architettura nel contesto dell'apprendimento robotico, sosteniamo che i transformer standard non sfruttino appieno la struttura del problema dell'apprendimento robotico. Pertanto, proponiamo Body Transformer (BoT), un'architettura che sfrutta l'incorporazione fisica del robot fornendo un bias induttivo che guida il processo di apprendimento. Rappresentiamo il corpo del robot come un grafo di sensori e attuatori e ci affidiamo all'attenzione mascherata per aggregare le informazioni all'interno dell'architettura. L'architettura risultante supera il transformer standard, così come il classico perceptron multistrato, in termini di completamento del compito, proprietà di scalabilità ed efficienza computazionale quando si rappresentano politiche di apprendimento per imitazione o per rinforzo. Materiale aggiuntivo, incluso il codice open-source, è disponibile all'indirizzo https://sferrazza.cc/bot_site.
English
In recent years, the transformer architecture has become the de facto standard for machine learning algorithms applied to natural language processing and computer vision. Despite notable evidence of successful deployment of this architecture in the context of robot learning, we claim that vanilla transformers do not fully exploit the structure of the robot learning problem. Therefore, we propose Body Transformer (BoT), an architecture that leverages the robot embodiment by providing an inductive bias that guides the learning process. We represent the robot body as a graph of sensors and actuators, and rely on masked attention to pool information throughout the architecture. The resulting architecture outperforms the vanilla transformer, as well as the classical multilayer perceptron, in terms of task completion, scaling properties, and computational efficiency when representing either imitation or reinforcement learning policies. Additional material including the open-source code is available at https://sferrazza.cc/bot_site.
PDF102November 28, 2024