ChatPaper.aiChatPaper

PASTA : Agents Transformers pré-entraînés pour les états et actions

PASTA: Pretrained Action-State Transformer Agents

July 20, 2023
Auteurs: Raphael Boige, Yannis Flet-Berliac, Arthur Flajolet, Guillaume Richard, Thomas Pierrot
cs.AI

Résumé

L'apprentissage auto-supervisé a engendré un changement de paradigme révolutionnaire dans divers domaines informatiques, incluant le traitement du langage naturel (NLP), la vision par ordinateur et la biologie. Les approches récentes impliquent un pré-entraînement de modèles transformateurs sur de vastes quantités de données non labellisées, servant de point de départ pour résoudre efficacement des tâches en aval. Dans le domaine de l'apprentissage par renforcement, les chercheurs ont récemment adapté ces approches en développant des modèles pré-entraînés sur des trajectoires expertes, leur permettant de traiter un large éventail de tâches, allant de la robotique aux systèmes de recommandation. Cependant, les méthodes existantes reposent principalement sur des objectifs de pré-entraînement complexes adaptés à des applications spécifiques en aval. Cet article présente une investigation approfondie des modèles que nous appelons Pretrained Action-State Transformer Agents (PASTA). Notre étude utilise une méthodologie unifiée et couvre un ensemble étendu de tâches générales en aval, incluant le clonage comportemental, l'apprentissage par renforcement hors ligne, la robustesse aux défaillances de capteurs et l'adaptation aux changements de dynamique. Notre objectif est de comparer systématiquement divers choix de conception et de fournir des insights précieux aux praticiens pour construire des modèles robustes. Les points clés de notre étude incluent la tokenisation au niveau des composantes d'action et d'état, l'utilisation d'objectifs de pré-entraînement fondamentaux comme la prédiction du prochain token, l'entraînement de modèles sur des domaines divers simultanément, et l'utilisation d'un réglage fin efficace en termes de paramètres (PEFT). Les modèles développés dans notre étude contiennent moins de 10 millions de paramètres, et l'application du PEFT permet un réglage fin de moins de 10 000 paramètres lors de l'adaptation en aval, permettant à une large communauté d'utiliser ces modèles et de reproduire nos expériences. Nous espérons que cette étude encouragera des recherches supplémentaires sur l'utilisation de transformateurs avec des choix de conception basés sur les premiers principes pour représenter des trajectoires d'apprentissage par renforcement et contribuer à un apprentissage de politiques robuste.
English
Self-supervised learning has brought about a revolutionary paradigm shift in various computing domains, including NLP, vision, and biology. Recent approaches involve pre-training transformer models on vast amounts of unlabeled data, serving as a starting point for efficiently solving downstream tasks. In the realm of reinforcement learning, researchers have recently adapted these approaches by developing models pre-trained on expert trajectories, enabling them to address a wide range of tasks, from robotics to recommendation systems. However, existing methods mostly rely on intricate pre-training objectives tailored to specific downstream applications. This paper presents a comprehensive investigation of models we refer to as Pretrained Action-State Transformer Agents (PASTA). Our study uses a unified methodology and covers an extensive set of general downstream tasks including behavioral cloning, offline RL, sensor failure robustness, and dynamics change adaptation. Our goal is to systematically compare various design choices and provide valuable insights to practitioners for building robust models. Key highlights of our study include tokenization at the action and state component level, using fundamental pre-training objectives like next token prediction, training models across diverse domains simultaneously, and using parameter efficient fine-tuning (PEFT). The developed models in our study contain fewer than 10 million parameters and the application of PEFT enables fine-tuning of fewer than 10,000 parameters during downstream adaptation, allowing a broad community to use these models and reproduce our experiments. We hope that this study will encourage further research into the use of transformers with first-principles design choices to represent RL trajectories and contribute to robust policy learning.
PDF100December 15, 2024