Aumentando Agentes Autotélicos com Modelos de Linguagem de Grande Escala

Resumo

Os seres humanos aprendem a dominar repertórios abertos de habilidades imaginando e praticando seus próprios objetivos. Esse processo de aprendizado autotélico, literalmente a busca por objetivos (telos) autogerados (auto), torna-se cada vez mais aberto à medida que os objetivos se tornam mais diversos, abstratos e criativos. A exploração resultante do espaço de habilidades possíveis é sustentada por uma exploração interindividual: as representações de objetivos evoluem culturalmente e são transmitidas entre indivíduos, particularmente por meio da linguagem. Atualmente, os agentes artificiais dependem principalmente de representações de objetivos predefinidas, correspondentes a espaços de objetivos que são limitados (por exemplo, listas de instruções) ou ilimitados (por exemplo, o espaço de possíveis entradas visuais), mas raramente são dotados da capacidade de reformular suas representações de objetivos, formar novas abstrações ou imaginar objetivos criativos. Neste artigo, introduzimos um agente autotélico aumentado por um modelo de linguagem (LMA3) que aproveita um modelo de linguagem (LM) pré-treinado para apoiar a representação, geração e aprendizado de objetivos diversos, abstratos e relevantes para humanos. O LM é usado como um modelo imperfeito de transmissão cultural humana; uma tentativa de capturar aspectos do senso comum, da física intuitiva e dos interesses gerais dos humanos. Especificamente, ele suporta três componentes-chave da arquitetura autotélica: 1) um reclassificador que descreve os objetivos alcançados nas trajetórias do agente, 2) um gerador de objetivos que sugere novos objetivos de alto nível, juntamente com sua decomposição em subobjetivos que o agente já domina, e 3) funções de recompensa para cada um desses objetivos. Sem depender de representações de objetivos, funções de recompensa ou currículos pré-definidos, mostramos que os agentes LMA3 aprendem a dominar uma grande diversidade de habilidades em um ambiente baseado em texto agnóstico à tarefa.

English

Humans learn to master open-ended repertoires of skills by imagining and practicing their own goals. This autotelic learning process, literally the pursuit of self-generated (auto) goals (telos), becomes more and more open-ended as the goals become more diverse, abstract and creative. The resulting exploration of the space of possible skills is supported by an inter-individual exploration: goal representations are culturally evolved and transmitted across individuals, in particular using language. Current artificial agents mostly rely on predefined goal representations corresponding to goal spaces that are either bounded (e.g. list of instructions), or unbounded (e.g. the space of possible visual inputs) but are rarely endowed with the ability to reshape their goal representations, to form new abstractions or to imagine creative goals. In this paper, we introduce a language model augmented autotelic agent (LMA3) that leverages a pretrained language model (LM) to support the representation, generation and learning of diverse, abstract, human-relevant goals. The LM is used as an imperfect model of human cultural transmission; an attempt to capture aspects of humans' common-sense, intuitive physics and overall interests. Specifically, it supports three key components of the autotelic architecture: 1)~a relabeler that describes the goals achieved in the agent's trajectories, 2)~a goal generator that suggests new high-level goals along with their decomposition into subgoals the agent already masters, and 3)~reward functions for each of these goals. Without relying on any hand-coded goal representations, reward functions or curriculum, we show that LMA3 agents learn to master a large diversity of skills in a task-agnostic text-based environment.

Aumentando Agentes Autotélicos com Modelos de Linguagem de Grande Escala

Augmenting Autotelic Agents with Large Language Models

Resumo

Support