Erweiterung autotelischer Agenten durch große Sprachmodelle
Augmenting Autotelic Agents with Large Language Models
May 21, 2023
Autoren: Cédric Colas, Laetitia Teodorescu, Pierre-Yves Oudeyer, Xingdi Yuan, Marc-Alexandre Côté
cs.AI
Zusammenfassung
Menschen erlernen offene Repertoires von Fähigkeiten, indem sie sich eigene Ziele vorstellen und diese üben. Dieser autotelische Lernprozess, wörtlich die Verfolgung selbstgenerierter (auto) Ziele (telos), wird zunehmend offener, je vielfältiger, abstrakter und kreativer die Ziele werden. Die daraus resultierende Erkundung des Raums möglicher Fähigkeiten wird durch eine interindividuelle Erkundung unterstützt: Zielrepräsentationen werden kulturell entwickelt und zwischen Individuen weitergegeben, insbesondere durch die Verwendung von Sprache. Aktuelle künstliche Agenten stützen sich meist auf vordefinierte Zielrepräsentationen, die entweder begrenzten (z. B. eine Liste von Anweisungen) oder unbegrenzten (z. B. den Raum möglicher visueller Eingaben) Zielräumen entsprechen, sind jedoch selten mit der Fähigkeit ausgestattet, ihre Zielrepräsentationen umzugestalten, neue Abstraktionen zu bilden oder kreative Ziele zu imaginieren. In diesem Artikel stellen wir einen autotelischen Agenten vor, der durch ein vortrainiertes Sprachmodell (LM) erweitert wird (LMA3) und dieses nutzt, um die Repräsentation, Generierung und das Lernen vielfältiger, abstrakter, menschenrelevanter Ziele zu unterstützen. Das LM wird als unvollkommenes Modell der menschlichen kulturellen Überlieferung verwendet; ein Versuch, Aspekte des menschlichen Common-Sense, der intuitiven Physik und der allgemeinen Interessen zu erfassen. Konkret unterstützt es drei Schlüsselkomponenten der autotelischen Architektur: 1)~einen Umbenenner, der die in den Trajektorien des Agenten erreichten Ziele beschreibt, 2)~einen Zielgenerator, der neue hochrangige Ziele vorschlägt, zusammen mit ihrer Zerlegung in Teilziele, die der Agent bereits beherrscht, und 3)~Belohnungsfunktionen für jedes dieser Ziele. Ohne auf manuell codierte Zielrepräsentationen, Belohnungsfunktionen oder Lehrpläne zurückzugreifen, zeigen wir, dass LMA3-Agenten eine große Vielfalt von Fähigkeiten in einer aufgabenunabhängigen, textbasierten Umgebung erlernen.
English
Humans learn to master open-ended repertoires of skills by imagining and
practicing their own goals. This autotelic learning process, literally the
pursuit of self-generated (auto) goals (telos), becomes more and more
open-ended as the goals become more diverse, abstract and creative. The
resulting exploration of the space of possible skills is supported by an
inter-individual exploration: goal representations are culturally evolved and
transmitted across individuals, in particular using language. Current
artificial agents mostly rely on predefined goal representations corresponding
to goal spaces that are either bounded (e.g. list of instructions), or
unbounded (e.g. the space of possible visual inputs) but are rarely endowed
with the ability to reshape their goal representations, to form new
abstractions or to imagine creative goals. In this paper, we introduce a
language model augmented autotelic agent (LMA3) that leverages a pretrained
language model (LM) to support the representation, generation and learning of
diverse, abstract, human-relevant goals. The LM is used as an imperfect model
of human cultural transmission; an attempt to capture aspects of humans'
common-sense, intuitive physics and overall interests. Specifically, it
supports three key components of the autotelic architecture: 1)~a relabeler
that describes the goals achieved in the agent's trajectories, 2)~a goal
generator that suggests new high-level goals along with their decomposition
into subgoals the agent already masters, and 3)~reward functions for each of
these goals. Without relying on any hand-coded goal representations, reward
functions or curriculum, we show that LMA3 agents learn to master a large
diversity of skills in a task-agnostic text-based environment.