PASTA: Agentes Transformadores Preentrenados de Acción-Estado
PASTA: Pretrained Action-State Transformer Agents
July 20, 2023
Autores: Raphael Boige, Yannis Flet-Berliac, Arthur Flajolet, Guillaume Richard, Thomas Pierrot
cs.AI
Resumen
El aprendizaje autosupervisado ha provocado un cambio de paradigma revolucionario en diversos dominios de la computación, incluyendo el procesamiento del lenguaje natural (NLP), la visión por computadora y la biología. Los enfoques recientes implican el preentrenamiento de modelos transformadores con grandes cantidades de datos no etiquetados, sirviendo como punto de partida para resolver eficientemente tareas posteriores. En el ámbito del aprendizaje por refuerzo, los investigadores han adaptado recientemente estos enfoques desarrollando modelos preentrenados con trayectorias expertas, permitiéndoles abordar una amplia gama de tareas, desde robótica hasta sistemas de recomendación. Sin embargo, los métodos existentes se basan principalmente en objetivos de preentrenamiento intrincados, diseñados para aplicaciones posteriores específicas. Este artículo presenta una investigación exhaustiva de modelos que denominamos Agentes Transformadores Preentrenados de Acción-Estado (PASTA, por sus siglas en inglés). Nuestro estudio utiliza una metodología unificada y cubre un amplio conjunto de tareas posteriores generales, incluyendo clonación de comportamiento, aprendizaje por refuerzo offline, robustez ante fallos de sensores y adaptación a cambios dinámicos. Nuestro objetivo es comparar sistemáticamente diversas opciones de diseño y proporcionar insights valiosos a los profesionales para construir modelos robustos. Los aspectos destacados de nuestro estudio incluyen la tokenización a nivel de componentes de acción y estado, el uso de objetivos fundamentales de preentrenamiento como la predicción del siguiente token, el entrenamiento de modelos en diversos dominios simultáneamente y el uso de ajuste fino eficiente en parámetros (PEFT, por sus siglas en inglés). Los modelos desarrollados en nuestro estudio contienen menos de 10 millones de parámetros, y la aplicación de PEFT permite ajustar menos de 10,000 parámetros durante la adaptación posterior, lo que facilita que una amplia comunidad utilice estos modelos y reproduzca nuestros experimentos. Esperamos que este estudio fomente más investigaciones sobre el uso de transformadores con elecciones de diseño basadas en principios fundamentales para representar trayectorias de aprendizaje por refuerzo y contribuya al aprendizaje de políticas robustas.
English
Self-supervised learning has brought about a revolutionary paradigm shift in
various computing domains, including NLP, vision, and biology. Recent
approaches involve pre-training transformer models on vast amounts of unlabeled
data, serving as a starting point for efficiently solving downstream tasks. In
the realm of reinforcement learning, researchers have recently adapted these
approaches by developing models pre-trained on expert trajectories, enabling
them to address a wide range of tasks, from robotics to recommendation systems.
However, existing methods mostly rely on intricate pre-training objectives
tailored to specific downstream applications. This paper presents a
comprehensive investigation of models we refer to as Pretrained Action-State
Transformer Agents (PASTA). Our study uses a unified methodology and covers an
extensive set of general downstream tasks including behavioral cloning, offline
RL, sensor failure robustness, and dynamics change adaptation. Our goal is to
systematically compare various design choices and provide valuable insights to
practitioners for building robust models. Key highlights of our study include
tokenization at the action and state component level, using fundamental
pre-training objectives like next token prediction, training models across
diverse domains simultaneously, and using parameter efficient fine-tuning
(PEFT). The developed models in our study contain fewer than 10 million
parameters and the application of PEFT enables fine-tuning of fewer than 10,000
parameters during downstream adaptation, allowing a broad community to use
these models and reproduce our experiments. We hope that this study will
encourage further research into the use of transformers with first-principles
design choices to represent RL trajectories and contribute to robust policy
learning.