ChatPaper.aiChatPaper

PASTA: Agenti Transformer Pre-addestrati su Azioni e Stati

PASTA: Pretrained Action-State Transformer Agents

July 20, 2023
Autori: Raphael Boige, Yannis Flet-Berliac, Arthur Flajolet, Guillaume Richard, Thomas Pierrot
cs.AI

Abstract

L'apprendimento self-supervised ha portato un cambiamento di paradigma rivoluzionario in vari ambiti informatici, tra cui NLP, visione e biologia. Gli approcci recenti prevedono il pre-training di modelli transformer su grandi quantità di dati non etichettati, che fungono da punto di partenza per risolvere in modo efficiente task downstream. Nel campo del reinforcement learning, i ricercatori hanno recentemente adattato questi approcci sviluppando modelli pre-addestrati su traiettorie esperti, consentendo loro di affrontare un'ampia gamma di task, dalla robotica ai sistemi di raccomandazione. Tuttavia, i metodi esistenti si basano principalmente su obiettivi di pre-training complessi, progettati per specifiche applicazioni downstream. Questo articolo presenta un'indagine completa sui modelli che definiamo Pretrained Action-State Transformer Agents (PASTA). Il nostro studio utilizza una metodologia unificata e copre un ampio insieme di task downstream generali, tra cui behavioral cloning, RL offline, robustezza ai guasti dei sensori e adattamento ai cambiamenti dinamici. Il nostro obiettivo è confrontare sistematicamente varie scelte progettuali e fornire spunti preziosi ai professionisti per la costruzione di modelli robusti. I punti salienti del nostro studio includono la tokenizzazione a livello di componente di azione e stato, l'uso di obiettivi di pre-training fondamentali come la previsione del token successivo, l'addestramento di modelli su domini diversi in modo simultaneo e l'utilizzo del fine-tuning efficiente dei parametri (PEFT). I modelli sviluppati nel nostro studio contengono meno di 10 milioni di parametri e l'applicazione del PEFT consente il fine-tuning di meno di 10.000 parametri durante l'adattamento downstream, permettendo a una vasta comunità di utilizzare questi modelli e riprodurre i nostri esperimenti. Speriamo che questo studio incoraggi ulteriori ricerche sull'uso dei transformer con scelte progettuali basate su principi primi per rappresentare traiettorie di RL e contribuire all'apprendimento di politiche robuste.
English
Self-supervised learning has brought about a revolutionary paradigm shift in various computing domains, including NLP, vision, and biology. Recent approaches involve pre-training transformer models on vast amounts of unlabeled data, serving as a starting point for efficiently solving downstream tasks. In the realm of reinforcement learning, researchers have recently adapted these approaches by developing models pre-trained on expert trajectories, enabling them to address a wide range of tasks, from robotics to recommendation systems. However, existing methods mostly rely on intricate pre-training objectives tailored to specific downstream applications. This paper presents a comprehensive investigation of models we refer to as Pretrained Action-State Transformer Agents (PASTA). Our study uses a unified methodology and covers an extensive set of general downstream tasks including behavioral cloning, offline RL, sensor failure robustness, and dynamics change adaptation. Our goal is to systematically compare various design choices and provide valuable insights to practitioners for building robust models. Key highlights of our study include tokenization at the action and state component level, using fundamental pre-training objectives like next token prediction, training models across diverse domains simultaneously, and using parameter efficient fine-tuning (PEFT). The developed models in our study contain fewer than 10 million parameters and the application of PEFT enables fine-tuning of fewer than 10,000 parameters during downstream adaptation, allowing a broad community to use these models and reproduce our experiments. We hope that this study will encourage further research into the use of transformers with first-principles design choices to represent RL trajectories and contribute to robust policy learning.
PDF100December 15, 2024