ChatPaper.aiChatPaper

Aumentando Agentes Autotélicos con Modelos de Lenguaje a Gran Escala

Augmenting Autotelic Agents with Large Language Models

May 21, 2023
Autores: Cédric Colas, Laetitia Teodorescu, Pierre-Yves Oudeyer, Xingdi Yuan, Marc-Alexandre Côté
cs.AI

Resumen

Los seres humanos aprenden a dominar repertorios abiertos de habilidades imaginando y practicando sus propios objetivos. Este proceso de aprendizaje autotélico, literalmente la búsqueda de objetivos (telos) autogenerados (auto), se vuelve cada vez más abierto a medida que los objetivos se diversifican, se vuelven más abstractos y creativos. La exploración resultante del espacio de habilidades posibles se ve apoyada por una exploración interindividual: las representaciones de objetivos evolucionan culturalmente y se transmiten entre individuos, en particular utilizando el lenguaje. Los agentes artificiales actuales dependen principalmente de representaciones de objetivos predefinidas que corresponden a espacios de objetivos que están acotados (por ejemplo, listas de instrucciones) o ilimitados (por ejemplo, el espacio de posibles entradas visuales), pero rara vez están dotados de la capacidad de reformular sus representaciones de objetivos, formar nuevas abstracciones o imaginar objetivos creativos. En este artículo, presentamos un agente autotélico aumentado con un modelo de lenguaje (LMA3) que aprovecha un modelo de lenguaje (LM) preentrenado para apoyar la representación, generación y aprendizaje de objetivos diversos, abstractos y relevantes para los humanos. El LM se utiliza como un modelo imperfecto de la transmisión cultural humana; un intento de capturar aspectos del sentido común, la física intuitiva y los intereses generales de los humanos. Específicamente, apoya tres componentes clave de la arquitectura autotélica: 1) un reetiquetador que describe los objetivos alcanzados en las trayectorias del agente, 2) un generador de objetivos que sugiere nuevos objetivos de alto nivel junto con su descomposición en subobjetivos que el agente ya domina, y 3) funciones de recompensa para cada uno de estos objetivos. Sin depender de representaciones de objetivos, funciones de recompensa o currículos codificados manualmente, demostramos que los agentes LMA3 aprenden a dominar una gran diversidad de habilidades en un entorno basado en texto independiente de la tarea.
English
Humans learn to master open-ended repertoires of skills by imagining and practicing their own goals. This autotelic learning process, literally the pursuit of self-generated (auto) goals (telos), becomes more and more open-ended as the goals become more diverse, abstract and creative. The resulting exploration of the space of possible skills is supported by an inter-individual exploration: goal representations are culturally evolved and transmitted across individuals, in particular using language. Current artificial agents mostly rely on predefined goal representations corresponding to goal spaces that are either bounded (e.g. list of instructions), or unbounded (e.g. the space of possible visual inputs) but are rarely endowed with the ability to reshape their goal representations, to form new abstractions or to imagine creative goals. In this paper, we introduce a language model augmented autotelic agent (LMA3) that leverages a pretrained language model (LM) to support the representation, generation and learning of diverse, abstract, human-relevant goals. The LM is used as an imperfect model of human cultural transmission; an attempt to capture aspects of humans' common-sense, intuitive physics and overall interests. Specifically, it supports three key components of the autotelic architecture: 1)~a relabeler that describes the goals achieved in the agent's trajectories, 2)~a goal generator that suggests new high-level goals along with their decomposition into subgoals the agent already masters, and 3)~reward functions for each of these goals. Without relying on any hand-coded goal representations, reward functions or curriculum, we show that LMA3 agents learn to master a large diversity of skills in a task-agnostic text-based environment.
PDF10December 15, 2024