Erweiterung autotelischer Agenten durch große Sprachmodelle

Zusammenfassung

Menschen erlernen offene Repertoires von Fähigkeiten, indem sie sich eigene Ziele vorstellen und diese üben. Dieser autotelische Lernprozess, wörtlich die Verfolgung selbstgenerierter (auto) Ziele (telos), wird zunehmend offener, je vielfältiger, abstrakter und kreativer die Ziele werden. Die daraus resultierende Erkundung des Raums möglicher Fähigkeiten wird durch eine interindividuelle Erkundung unterstützt: Zielrepräsentationen werden kulturell entwickelt und zwischen Individuen weitergegeben, insbesondere durch die Verwendung von Sprache. Aktuelle künstliche Agenten stützen sich meist auf vordefinierte Zielrepräsentationen, die entweder begrenzten (z. B. eine Liste von Anweisungen) oder unbegrenzten (z. B. den Raum möglicher visueller Eingaben) Zielräumen entsprechen, sind jedoch selten mit der Fähigkeit ausgestattet, ihre Zielrepräsentationen umzugestalten, neue Abstraktionen zu bilden oder kreative Ziele zu imaginieren. In diesem Artikel stellen wir einen autotelischen Agenten vor, der durch ein vortrainiertes Sprachmodell (LM) erweitert wird (LMA3) und dieses nutzt, um die Repräsentation, Generierung und das Lernen vielfältiger, abstrakter, menschenrelevanter Ziele zu unterstützen. Das LM wird als unvollkommenes Modell der menschlichen kulturellen Überlieferung verwendet; ein Versuch, Aspekte des menschlichen Common-Sense, der intuitiven Physik und der allgemeinen Interessen zu erfassen. Konkret unterstützt es drei Schlüsselkomponenten der autotelischen Architektur: 1)~einen Umbenenner, der die in den Trajektorien des Agenten erreichten Ziele beschreibt, 2)~einen Zielgenerator, der neue hochrangige Ziele vorschlägt, zusammen mit ihrer Zerlegung in Teilziele, die der Agent bereits beherrscht, und 3)~Belohnungsfunktionen für jedes dieser Ziele. Ohne auf manuell codierte Zielrepräsentationen, Belohnungsfunktionen oder Lehrpläne zurückzugreifen, zeigen wir, dass LMA3-Agenten eine große Vielfalt von Fähigkeiten in einer aufgabenunabhängigen, textbasierten Umgebung erlernen.

English

Humans learn to master open-ended repertoires of skills by imagining and practicing their own goals. This autotelic learning process, literally the pursuit of self-generated (auto) goals (telos), becomes more and more open-ended as the goals become more diverse, abstract and creative. The resulting exploration of the space of possible skills is supported by an inter-individual exploration: goal representations are culturally evolved and transmitted across individuals, in particular using language. Current artificial agents mostly rely on predefined goal representations corresponding to goal spaces that are either bounded (e.g. list of instructions), or unbounded (e.g. the space of possible visual inputs) but are rarely endowed with the ability to reshape their goal representations, to form new abstractions or to imagine creative goals. In this paper, we introduce a language model augmented autotelic agent (LMA3) that leverages a pretrained language model (LM) to support the representation, generation and learning of diverse, abstract, human-relevant goals. The LM is used as an imperfect model of human cultural transmission; an attempt to capture aspects of humans' common-sense, intuitive physics and overall interests. Specifically, it supports three key components of the autotelic architecture: 1)~a relabeler that describes the goals achieved in the agent's trajectories, 2)~a goal generator that suggests new high-level goals along with their decomposition into subgoals the agent already masters, and 3)~reward functions for each of these goals. Without relying on any hand-coded goal representations, reward functions or curriculum, we show that LMA3 agents learn to master a large diversity of skills in a task-agnostic text-based environment.

Erweiterung autotelischer Agenten durch große Sprachmodelle

Augmenting Autotelic Agents with Large Language Models

Zusammenfassung

Support