Усиление аутентичных агентов с помощью больших языковых моделей
Augmenting Autotelic Agents with Large Language Models
May 21, 2023
Авторы: Cédric Colas, Laetitia Teodorescu, Pierre-Yves Oudeyer, Xingdi Yuan, Marc-Alexandre Côté
cs.AI
Аннотация
Люди учатся овладевать открытыми репертуарами навыков, представляя и практикуя собственные цели. Этот аутогелический процесс обучения, буквально означающий преследование самостоятельно сгенерированных (ауто) целей (телос), становится всё более открытым по мере того, как цели становятся более разнообразными, абстрактными и творческими. Исследование пространства возможных навыков поддерживается межличностным взаимодействием: представления целей культурно эволюционируют и передаются между индивидами, в частности с использованием языка. Современные искусственные агенты в основном полагаются на предопределённые представления целей, соответствующие либо ограниченным (например, списки инструкций), либо неограниченным (например, пространство возможных визуальных входных данных) пространствам целей, но редко наделяются способностью переосмысливать свои представления целей, формировать новые абстракции или представлять творческие цели. В данной статье мы представляем аутогелического агента, дополненного языковой моделью (LMA3), который использует предобученную языковую модель (LM) для поддержки представления, генерации и обучения разнообразным, абстрактным, значимым для человека целям. Языковая модель используется как несовершенная модель культурной передачи у людей; попытка уловить аспекты человеческого здравого смысла, интуитивной физики и общих интересов. В частности, она поддерживает три ключевых компонента аутогелической архитектуры: 1) перемаркировщик, который описывает цели, достигнутые в траекториях агента, 2) генератор целей, который предлагает новые высокоуровневые цели вместе с их декомпозицией на подцели, уже освоенные агентом, и 3) функции вознаграждения для каждой из этих целей. Без использования каких-либо ручных представлений целей, функций вознаграждения или учебного плана, мы показываем, что агенты LMA3 учатся овладевать большим разнообразием навыков в независимой от задач текстовой среде.
English
Humans learn to master open-ended repertoires of skills by imagining and
practicing their own goals. This autotelic learning process, literally the
pursuit of self-generated (auto) goals (telos), becomes more and more
open-ended as the goals become more diverse, abstract and creative. The
resulting exploration of the space of possible skills is supported by an
inter-individual exploration: goal representations are culturally evolved and
transmitted across individuals, in particular using language. Current
artificial agents mostly rely on predefined goal representations corresponding
to goal spaces that are either bounded (e.g. list of instructions), or
unbounded (e.g. the space of possible visual inputs) but are rarely endowed
with the ability to reshape their goal representations, to form new
abstractions or to imagine creative goals. In this paper, we introduce a
language model augmented autotelic agent (LMA3) that leverages a pretrained
language model (LM) to support the representation, generation and learning of
diverse, abstract, human-relevant goals. The LM is used as an imperfect model
of human cultural transmission; an attempt to capture aspects of humans'
common-sense, intuitive physics and overall interests. Specifically, it
supports three key components of the autotelic architecture: 1)~a relabeler
that describes the goals achieved in the agent's trajectories, 2)~a goal
generator that suggests new high-level goals along with their decomposition
into subgoals the agent already masters, and 3)~reward functions for each of
these goals. Without relying on any hand-coded goal representations, reward
functions or curriculum, we show that LMA3 agents learn to master a large
diversity of skills in a task-agnostic text-based environment.