Autotelische agenten versterken met grote taalmodellen

Samenvatting

Mensen leren open-einde repertoires van vaardigheden beheersen door hun eigen doelen te bedenken en te oefenen. Dit autotelische leerproces, letterlijk het nastreven van zelf gegenereerde (auto) doelen (telos), wordt steeds open-einde naarmate de doelen diverser, abstracter en creatiever worden. De resulterende verkenning van de ruimte van mogelijke vaardigheden wordt ondersteund door een inter-individuele verkenning: doelrepresentaties evolueren cultureel en worden overgedragen tussen individuen, met name via taal. Huidige kunstmatige agenten vertrouwen voornamelijk op vooraf gedefinieerde doelrepresentaties die corresponderen met doelruimten die ofwel begrensd zijn (bijv. een lijst van instructies), ofwel onbegrensd (bijv. de ruimte van mogelijke visuele inputs), maar zijn zelden uitgerust met het vermogen om hun doelrepresentaties te hervormen, nieuwe abstracties te vormen of creatieve doelen te bedenken. In dit artikel introduceren we een taalmodel-augmented autotelische agent (LMA3) die gebruik maakt van een vooraf getraind taalmodel (LM) om de representatie, generatie en het leren van diverse, abstracte, mens-relevante doelen te ondersteunen. Het LM wordt gebruikt als een imperfect model van menselijke culturele overdracht; een poging om aspecten van het gezond verstand, intuïtieve fysica en algemene interesses van mensen vast te leggen. Specifiek ondersteunt het drie sleutelcomponenten van de autotelische architectuur: 1) een herlabeler die de doelen beschrijft die zijn bereikt in de trajecten van de agent, 2) een doelgenerator die nieuwe hoogwaardige doelen voorstelt samen met hun decompositie in subdoelen die de agent al beheerst, en 3) beloningsfuncties voor elk van deze doelen. Zonder te vertrouwen op handmatig gecodeerde doelrepresentaties, beloningsfuncties of een curriculum, laten we zien dat LMA3-agenten leren om een grote diversiteit aan vaardigheden te beheersen in een taak-agnostische, tekstgebaseerde omgeving.

English

Humans learn to master open-ended repertoires of skills by imagining and practicing their own goals. This autotelic learning process, literally the pursuit of self-generated (auto) goals (telos), becomes more and more open-ended as the goals become more diverse, abstract and creative. The resulting exploration of the space of possible skills is supported by an inter-individual exploration: goal representations are culturally evolved and transmitted across individuals, in particular using language. Current artificial agents mostly rely on predefined goal representations corresponding to goal spaces that are either bounded (e.g. list of instructions), or unbounded (e.g. the space of possible visual inputs) but are rarely endowed with the ability to reshape their goal representations, to form new abstractions or to imagine creative goals. In this paper, we introduce a language model augmented autotelic agent (LMA3) that leverages a pretrained language model (LM) to support the representation, generation and learning of diverse, abstract, human-relevant goals. The LM is used as an imperfect model of human cultural transmission; an attempt to capture aspects of humans' common-sense, intuitive physics and overall interests. Specifically, it supports three key components of the autotelic architecture: 1)~a relabeler that describes the goals achieved in the agent's trajectories, 2)~a goal generator that suggests new high-level goals along with their decomposition into subgoals the agent already masters, and 3)~reward functions for each of these goals. Without relying on any hand-coded goal representations, reward functions or curriculum, we show that LMA3 agents learn to master a large diversity of skills in a task-agnostic text-based environment.

Autotelische agenten versterken met grote taalmodellen

Augmenting Autotelic Agents with Large Language Models

Samenvatting

Support