PASTA: Voorgetrainde Actie-Toestand Transformer Agents
PASTA: Pretrained Action-State Transformer Agents
July 20, 2023
Auteurs: Raphael Boige, Yannis Flet-Berliac, Arthur Flajolet, Guillaume Richard, Thomas Pierrot
cs.AI
Samenvatting
Zelfsupervised leren heeft een revolutionaire paradigmaverschuiving teweeggebracht in verschillende computerdomeinen, waaronder NLP, vision en biologie. Recente benaderingen omvatten het vooraf trainen van transformermodellen op grote hoeveelheden ongelabelde gegevens, wat als uitgangspunt dient voor het efficiënt oplossen van downstream taken. Op het gebied van reinforcement learning hebben onderzoekers deze benaderingen recentelijk aangepast door modellen te ontwikkelen die vooraf zijn getraind op expert trajecten, waardoor ze een breed scala aan taken kunnen aanpakken, van robotica tot aanbevelingssystemen. Bestaande methoden zijn echter voornamelijk gebaseerd op complexe vooraf ingestelde trainingsdoelen die zijn afgestemd op specifieke downstream toepassingen. Dit artikel presenteert een uitgebreid onderzoek naar modellen die we Pretrained Action-State Transformer Agents (PASTA) noemen. Onze studie gebruikt een uniforme methodologie en behandelt een uitgebreide set van algemene downstream taken, waaronder gedragsklonen, offline RL, robuustheid tegen sensorfalen en aanpassing aan dynamische veranderingen. Ons doel is om verschillende ontwerpkeuzes systematisch te vergelijken en waardevolle inzichten te bieden aan praktijkmensen voor het bouwen van robuuste modellen. Belangrijke hoogtepunten van onze studie zijn tokenisatie op het niveau van actie- en staatcomponenten, het gebruik van fundamentele vooraf ingestelde trainingsdoelen zoals voorspelling van de volgende token, het trainen van modellen over diverse domeinen tegelijkertijd, en het gebruik van parameter efficiënte fine-tuning (PEFT). De ontwikkelde modellen in onze studie bevatten minder dan 10 miljoen parameters en de toepassing van PEFT maakt het mogelijk om tijdens downstream aanpassing minder dan 10.000 parameters te fine-tunen, waardoor een breed publiek deze modellen kan gebruiken en onze experimenten kan reproduceren. We hopen dat deze studie verder onderzoek zal aanmoedigen naar het gebruik van transformators met ontwerpkeuzes op basis van eerste principes om RL trajecten weer te geven en bij te dragen aan robuust beleidsleren.
English
Self-supervised learning has brought about a revolutionary paradigm shift in
various computing domains, including NLP, vision, and biology. Recent
approaches involve pre-training transformer models on vast amounts of unlabeled
data, serving as a starting point for efficiently solving downstream tasks. In
the realm of reinforcement learning, researchers have recently adapted these
approaches by developing models pre-trained on expert trajectories, enabling
them to address a wide range of tasks, from robotics to recommendation systems.
However, existing methods mostly rely on intricate pre-training objectives
tailored to specific downstream applications. This paper presents a
comprehensive investigation of models we refer to as Pretrained Action-State
Transformer Agents (PASTA). Our study uses a unified methodology and covers an
extensive set of general downstream tasks including behavioral cloning, offline
RL, sensor failure robustness, and dynamics change adaptation. Our goal is to
systematically compare various design choices and provide valuable insights to
practitioners for building robust models. Key highlights of our study include
tokenization at the action and state component level, using fundamental
pre-training objectives like next token prediction, training models across
diverse domains simultaneously, and using parameter efficient fine-tuning
(PEFT). The developed models in our study contain fewer than 10 million
parameters and the application of PEFT enables fine-tuning of fewer than 10,000
parameters during downstream adaptation, allowing a broad community to use
these models and reproduce our experiments. We hope that this study will
encourage further research into the use of transformers with first-principles
design choices to represent RL trajectories and contribute to robust policy
learning.