ChatPaper.aiChatPaper

PASTA: Agentes Transformadores Preentrenados de Acción-Estado

PASTA: Pretrained Action-State Transformer Agents

July 20, 2023
Autores: Raphael Boige, Yannis Flet-Berliac, Arthur Flajolet, Guillaume Richard, Thomas Pierrot
cs.AI

Resumen

El aprendizaje autosupervisado ha provocado un cambio de paradigma revolucionario en diversos dominios de la computación, incluyendo el procesamiento del lenguaje natural (NLP), la visión por computadora y la biología. Los enfoques recientes implican el preentrenamiento de modelos transformadores con grandes cantidades de datos no etiquetados, sirviendo como punto de partida para resolver eficientemente tareas posteriores. En el ámbito del aprendizaje por refuerzo, los investigadores han adaptado recientemente estos enfoques desarrollando modelos preentrenados con trayectorias expertas, permitiéndoles abordar una amplia gama de tareas, desde robótica hasta sistemas de recomendación. Sin embargo, los métodos existentes se basan principalmente en objetivos de preentrenamiento intrincados, diseñados para aplicaciones posteriores específicas. Este artículo presenta una investigación exhaustiva de modelos que denominamos Agentes Transformadores Preentrenados de Acción-Estado (PASTA, por sus siglas en inglés). Nuestro estudio utiliza una metodología unificada y cubre un amplio conjunto de tareas posteriores generales, incluyendo clonación de comportamiento, aprendizaje por refuerzo offline, robustez ante fallos de sensores y adaptación a cambios dinámicos. Nuestro objetivo es comparar sistemáticamente diversas opciones de diseño y proporcionar insights valiosos a los profesionales para construir modelos robustos. Los aspectos destacados de nuestro estudio incluyen la tokenización a nivel de componentes de acción y estado, el uso de objetivos fundamentales de preentrenamiento como la predicción del siguiente token, el entrenamiento de modelos en diversos dominios simultáneamente y el uso de ajuste fino eficiente en parámetros (PEFT, por sus siglas en inglés). Los modelos desarrollados en nuestro estudio contienen menos de 10 millones de parámetros, y la aplicación de PEFT permite ajustar menos de 10,000 parámetros durante la adaptación posterior, lo que facilita que una amplia comunidad utilice estos modelos y reproduzca nuestros experimentos. Esperamos que este estudio fomente más investigaciones sobre el uso de transformadores con elecciones de diseño basadas en principios fundamentales para representar trayectorias de aprendizaje por refuerzo y contribuya al aprendizaje de políticas robustas.
English
Self-supervised learning has brought about a revolutionary paradigm shift in various computing domains, including NLP, vision, and biology. Recent approaches involve pre-training transformer models on vast amounts of unlabeled data, serving as a starting point for efficiently solving downstream tasks. In the realm of reinforcement learning, researchers have recently adapted these approaches by developing models pre-trained on expert trajectories, enabling them to address a wide range of tasks, from robotics to recommendation systems. However, existing methods mostly rely on intricate pre-training objectives tailored to specific downstream applications. This paper presents a comprehensive investigation of models we refer to as Pretrained Action-State Transformer Agents (PASTA). Our study uses a unified methodology and covers an extensive set of general downstream tasks including behavioral cloning, offline RL, sensor failure robustness, and dynamics change adaptation. Our goal is to systematically compare various design choices and provide valuable insights to practitioners for building robust models. Key highlights of our study include tokenization at the action and state component level, using fundamental pre-training objectives like next token prediction, training models across diverse domains simultaneously, and using parameter efficient fine-tuning (PEFT). The developed models in our study contain fewer than 10 million parameters and the application of PEFT enables fine-tuning of fewer than 10,000 parameters during downstream adaptation, allowing a broad community to use these models and reproduce our experiments. We hope that this study will encourage further research into the use of transformers with first-principles design choices to represent RL trajectories and contribute to robust policy learning.
PDF100December 15, 2024