Amélioration des agents autotéliques par les modèles de langage de grande taille
Augmenting Autotelic Agents with Large Language Models
May 21, 2023
Auteurs: Cédric Colas, Laetitia Teodorescu, Pierre-Yves Oudeyer, Xingdi Yuan, Marc-Alexandre Côté
cs.AI
Résumé
Les humains apprennent à maîtriser des répertoires ouverts de compétences en imaginant et en pratiquant leurs propres objectifs. Ce processus d'apprentissage autotélique, littéralement la poursuite d'objectifs (télos) auto-générés (auto), devient de plus en plus ouvert à mesure que les objectifs deviennent plus diversifiés, abstraits et créatifs. L'exploration résultante de l'espace des compétences possibles est soutenue par une exploration interindividuelle : les représentations des objectifs évoluent culturellement et sont transmises entre les individus, en particulier par le biais du langage. Les agents artificiels actuels reposent principalement sur des représentations d'objectifs prédéfinies correspondant à des espaces d'objectifs soit bornés (par exemple, une liste d'instructions), soit non bornés (par exemple, l'espace des entrées visuelles possibles), mais sont rarement dotés de la capacité à remodeler leurs représentations d'objectifs, à former de nouvelles abstractions ou à imaginer des objectifs créatifs. Dans cet article, nous présentons un agent autotélique augmenté par un modèle de langage (LMA3) qui exploite un modèle de langage préentraîné (LM) pour soutenir la représentation, la génération et l'apprentissage d'objectifs diversifiés, abstraits et pertinents pour les humains. Le LM est utilisé comme un modèle imparfait de la transmission culturelle humaine ; une tentative de capturer des aspects du bon sens humain, de la physique intuitive et des intérêts généraux. Plus précisément, il soutient trois composants clés de l'architecture autotélique : 1) un re-étiqueteur qui décrit les objectifs atteints dans les trajectoires de l'agent, 2) un générateur d'objectifs qui propose de nouveaux objectifs de haut niveau ainsi que leur décomposition en sous-objectifs que l'agent maîtrise déjà, et 3) des fonctions de récompense pour chacun de ces objectifs. Sans recourir à des représentations d'objectifs, des fonctions de récompense ou un curriculum prédéfinis, nous montrons que les agents LMA3 apprennent à maîtriser une grande diversité de compétences dans un environnement textuel indépendant de la tâche.
English
Humans learn to master open-ended repertoires of skills by imagining and
practicing their own goals. This autotelic learning process, literally the
pursuit of self-generated (auto) goals (telos), becomes more and more
open-ended as the goals become more diverse, abstract and creative. The
resulting exploration of the space of possible skills is supported by an
inter-individual exploration: goal representations are culturally evolved and
transmitted across individuals, in particular using language. Current
artificial agents mostly rely on predefined goal representations corresponding
to goal spaces that are either bounded (e.g. list of instructions), or
unbounded (e.g. the space of possible visual inputs) but are rarely endowed
with the ability to reshape their goal representations, to form new
abstractions or to imagine creative goals. In this paper, we introduce a
language model augmented autotelic agent (LMA3) that leverages a pretrained
language model (LM) to support the representation, generation and learning of
diverse, abstract, human-relevant goals. The LM is used as an imperfect model
of human cultural transmission; an attempt to capture aspects of humans'
common-sense, intuitive physics and overall interests. Specifically, it
supports three key components of the autotelic architecture: 1)~a relabeler
that describes the goals achieved in the agent's trajectories, 2)~a goal
generator that suggests new high-level goals along with their decomposition
into subgoals the agent already masters, and 3)~reward functions for each of
these goals. Without relying on any hand-coded goal representations, reward
functions or curriculum, we show that LMA3 agents learn to master a large
diversity of skills in a task-agnostic text-based environment.