PASTA: Предобученные агенты-трансформеры для действий и состояний
PASTA: Pretrained Action-State Transformer Agents
July 20, 2023
Авторы: Raphael Boige, Yannis Flet-Berliac, Arthur Flajolet, Guillaume Richard, Thomas Pierrot
cs.AI
Аннотация
Самообучение привело к революционному сдвигу парадигмы в различных вычислительных областях, включая обработку естественного языка (NLP), компьютерное зрение и биологию. Современные подходы предполагают предварительное обучение трансформерных моделей на огромных объемах немаркированных данных, что служит отправной точкой для эффективного решения последующих задач. В области обучения с подкреплением исследователи недавно адаптировали эти подходы, разработав модели, предварительно обученные на траекториях экспертов, что позволяет им решать широкий спектр задач — от робототехники до рекомендательных систем. Однако существующие методы в основном опираются на сложные цели предварительного обучения, адаптированные под конкретные приложения. В данной статье представлено всестороннее исследование моделей, которые мы называем Pretrained Action-State Transformer Agents (PASTA). Наше исследование использует унифицированную методологию и охватывает широкий набор общих задач, включая поведенческое клонирование, оффлайн-обучение с подкреплением, устойчивость к сбоям сенсоров и адаптацию к изменениям динамики. Наша цель — систематически сравнить различные варианты проектирования и предоставить практикам ценные инсайты для создания устойчивых моделей. Ключевые аспекты нашего исследования включают токенизацию на уровне компонентов действий и состояний, использование базовых целей предварительного обучения, таких как предсказание следующего токена, обучение моделей в различных доменах одновременно и применение параметрически эффективной тонкой настройки (PEFT). Разработанные в нашем исследовании модели содержат менее 10 миллионов параметров, а использование PEFT позволяет тонко настраивать менее 10 000 параметров в процессе адаптации к последующим задачам, что делает эти модели доступными для широкого круга пользователей и позволяет воспроизводить наши эксперименты. Мы надеемся, что это исследование стимулирует дальнейшие изыскания в области использования трансформеров с фундаментальными подходами к проектированию для представления траекторий обучения с подкреплением и внесет вклад в создание устойчивых стратегий обучения.
English
Self-supervised learning has brought about a revolutionary paradigm shift in
various computing domains, including NLP, vision, and biology. Recent
approaches involve pre-training transformer models on vast amounts of unlabeled
data, serving as a starting point for efficiently solving downstream tasks. In
the realm of reinforcement learning, researchers have recently adapted these
approaches by developing models pre-trained on expert trajectories, enabling
them to address a wide range of tasks, from robotics to recommendation systems.
However, existing methods mostly rely on intricate pre-training objectives
tailored to specific downstream applications. This paper presents a
comprehensive investigation of models we refer to as Pretrained Action-State
Transformer Agents (PASTA). Our study uses a unified methodology and covers an
extensive set of general downstream tasks including behavioral cloning, offline
RL, sensor failure robustness, and dynamics change adaptation. Our goal is to
systematically compare various design choices and provide valuable insights to
practitioners for building robust models. Key highlights of our study include
tokenization at the action and state component level, using fundamental
pre-training objectives like next token prediction, training models across
diverse domains simultaneously, and using parameter efficient fine-tuning
(PEFT). The developed models in our study contain fewer than 10 million
parameters and the application of PEFT enables fine-tuning of fewer than 10,000
parameters during downstream adaptation, allowing a broad community to use
these models and reproduce our experiments. We hope that this study will
encourage further research into the use of transformers with first-principles
design choices to represent RL trajectories and contribute to robust policy
learning.