PASTA: Agentes Transformadores Pré-treinados de Ação-Estado
PASTA: Pretrained Action-State Transformer Agents
July 20, 2023
Autores: Raphael Boige, Yannis Flet-Berliac, Arthur Flajolet, Guillaume Richard, Thomas Pierrot
cs.AI
Resumo
O aprendizado auto-supervisionado trouxe uma mudança de paradigma revolucionária em diversos domínios da computação, incluindo PLN, visão e biologia. Abordagens recentes envolvem o pré-treinamento de modelos transformadores em grandes quantidades de dados não rotulados, servindo como ponto de partida para resolver eficientemente tarefas subsequentes. No campo do aprendizado por reforço, pesquisadores recentemente adaptaram essas abordagens desenvolvendo modelos pré-treinados em trajetórias de especialistas, permitindo que eles abordem uma ampla gama de tarefas, desde robótica até sistemas de recomendação. No entanto, os métodos existentes dependem principalmente de objetivos de pré-treinamento complexos adaptados a aplicações específicas subsequentes. Este artigo apresenta uma investigação abrangente de modelos que denominamos Agentes Transformadores de Ação-Estado Pré-treinados (PASTA). Nosso estudo utiliza uma metodologia unificada e abrange um extenso conjunto de tarefas gerais subsequentes, incluindo clonagem comportamental, RL offline, robustez a falhas de sensores e adaptação a mudanças dinâmicas. Nosso objetivo é comparar sistematicamente várias escolhas de projeto e fornecer insights valiosos para profissionais na construção de modelos robustos. Destaques do nosso estudo incluem tokenização no nível dos componentes de ação e estado, uso de objetivos fundamentais de pré-treinamento como previsão do próximo token, treinamento de modelos em diversos domínios simultaneamente e uso de ajuste fino eficiente em parâmetros (PEFT). Os modelos desenvolvidos em nosso estudo contêm menos de 10 milhões de parâmetros, e a aplicação do PEFT permite o ajuste fino de menos de 10.000 parâmetros durante a adaptação subsequente, permitindo que uma ampla comunidade utilize esses modelos e reproduza nossos experimentos. Esperamos que este estudo incentive pesquisas adicionais sobre o uso de transformadores com escolhas de projeto baseadas em princípios fundamentais para representar trajetórias de RL e contribua para o aprendizado de políticas robustas.
English
Self-supervised learning has brought about a revolutionary paradigm shift in
various computing domains, including NLP, vision, and biology. Recent
approaches involve pre-training transformer models on vast amounts of unlabeled
data, serving as a starting point for efficiently solving downstream tasks. In
the realm of reinforcement learning, researchers have recently adapted these
approaches by developing models pre-trained on expert trajectories, enabling
them to address a wide range of tasks, from robotics to recommendation systems.
However, existing methods mostly rely on intricate pre-training objectives
tailored to specific downstream applications. This paper presents a
comprehensive investigation of models we refer to as Pretrained Action-State
Transformer Agents (PASTA). Our study uses a unified methodology and covers an
extensive set of general downstream tasks including behavioral cloning, offline
RL, sensor failure robustness, and dynamics change adaptation. Our goal is to
systematically compare various design choices and provide valuable insights to
practitioners for building robust models. Key highlights of our study include
tokenization at the action and state component level, using fundamental
pre-training objectives like next token prediction, training models across
diverse domains simultaneously, and using parameter efficient fine-tuning
(PEFT). The developed models in our study contain fewer than 10 million
parameters and the application of PEFT enables fine-tuning of fewer than 10,000
parameters during downstream adaptation, allowing a broad community to use
these models and reproduce our experiments. We hope that this study will
encourage further research into the use of transformers with first-principles
design choices to represent RL trajectories and contribute to robust policy
learning.