ChatPaper.aiChatPaper

PASTA: Vorab trainierte Action-State-Transformer-Agenten

PASTA: Pretrained Action-State Transformer Agents

July 20, 2023
Autoren: Raphael Boige, Yannis Flet-Berliac, Arthur Flajolet, Guillaume Richard, Thomas Pierrot
cs.AI

Zusammenfassung

Self-supervised learning hat einen revolutionären Paradigmenwechsel in verschiedenen Bereichen der Informatik bewirkt, darunter NLP, Computer Vision und Biologie. Aktuelle Ansätze beinhalten das Vortrainieren von Transformer-Modellen auf großen Mengen ungelabelter Daten, die als Ausgangspunkt für die effiziente Lösung nachgelagerter Aufgaben dienen. Im Bereich des Reinforcement Learning haben Forscher diese Ansätze kürzlich adaptiert, indem sie Modelle entwickelt haben, die auf Expertentrajektorien vortrainiert wurden, wodurch sie in der Lage sind, eine Vielzahl von Aufgaben zu bewältigen, von der Robotik bis hin zu Empfehlungssystemen. Bisherige Methoden stützen sich jedoch meist auf komplexe Vortrainingsziele, die auf spezifische nachgelagerte Anwendungen zugeschnitten sind. Dieses Papier präsentiert eine umfassende Untersuchung von Modellen, die wir als Pretrained Action-State Transformer Agents (PASTA) bezeichnen. Unsere Studie verwendet eine einheitliche Methodik und deckt eine breite Palette allgemeiner nachgelagerter Aufgaben ab, darunter Behavioral Cloning, Offline-RL, Robustheit bei Sensorausfällen und Anpassung an Dynamikänderungen. Unser Ziel ist es, verschiedene Designentscheidungen systematisch zu vergleichen und wertvolle Einblicke für Praktiker zu bieten, um robuste Modelle zu entwickeln. Zu den zentralen Aspekten unserer Studie gehören die Tokenisierung auf Ebene der Aktions- und Zustandskomponenten, die Verwendung grundlegender Vortrainingsziele wie die Vorhersage des nächsten Tokens, das Training von Modellen über verschiedene Domänen hinweg und die Anwendung von parameter-effizientem Fine-Tuning (PEFT). Die in unserer Studie entwickelten Modelle enthalten weniger als 10 Millionen Parameter, und die Anwendung von PEFT ermöglicht das Fine-Tuning von weniger als 10.000 Parametern während der nachgelagerten Anpassung, wodurch eine breite Gemeinschaft in der Lage ist, diese Modelle zu nutzen und unsere Experimente zu reproduzieren. Wir hoffen, dass diese Studie weitere Forschungen zur Verwendung von Transformern mit Designentscheidungen auf Basis erster Prinzipien zur Darstellung von RL-Trajektorien anregt und zu robustem Policy-Learning beiträgt.
English
Self-supervised learning has brought about a revolutionary paradigm shift in various computing domains, including NLP, vision, and biology. Recent approaches involve pre-training transformer models on vast amounts of unlabeled data, serving as a starting point for efficiently solving downstream tasks. In the realm of reinforcement learning, researchers have recently adapted these approaches by developing models pre-trained on expert trajectories, enabling them to address a wide range of tasks, from robotics to recommendation systems. However, existing methods mostly rely on intricate pre-training objectives tailored to specific downstream applications. This paper presents a comprehensive investigation of models we refer to as Pretrained Action-State Transformer Agents (PASTA). Our study uses a unified methodology and covers an extensive set of general downstream tasks including behavioral cloning, offline RL, sensor failure robustness, and dynamics change adaptation. Our goal is to systematically compare various design choices and provide valuable insights to practitioners for building robust models. Key highlights of our study include tokenization at the action and state component level, using fundamental pre-training objectives like next token prediction, training models across diverse domains simultaneously, and using parameter efficient fine-tuning (PEFT). The developed models in our study contain fewer than 10 million parameters and the application of PEFT enables fine-tuning of fewer than 10,000 parameters during downstream adaptation, allowing a broad community to use these models and reproduce our experiments. We hope that this study will encourage further research into the use of transformers with first-principles design choices to represent RL trajectories and contribute to robust policy learning.
PDF100December 15, 2024