Potenziamento degli agenti autotelici con modelli linguistici di grandi dimensioni
Augmenting Autotelic Agents with Large Language Models
May 21, 2023
Autori: Cédric Colas, Laetitia Teodorescu, Pierre-Yves Oudeyer, Xingdi Yuan, Marc-Alexandre Côté
cs.AI
Abstract
Gli esseri umani imparano a padroneggiare repertori aperti di competenze immaginando e praticando i propri obiettivi. Questo processo di apprendimento autotelico, letteralmente il perseguimento di obiettivi (telos) auto-generati (auto), diventa sempre più aperto man mano che gli obiettivi diventano più diversificati, astratti e creativi. L'esplorazione risultante dello spazio delle possibili competenze è supportata da un'esplorazione inter-individuale: le rappresentazioni degli obiettivi si evolvono culturalmente e vengono trasmesse tra gli individui, in particolare attraverso il linguaggio. Gli agenti artificiali attuali si basano principalmente su rappresentazioni predefinite degli obiettivi corrispondenti a spazi di obiettivi che sono o limitati (ad esempio, liste di istruzioni) o illimitati (ad esempio, lo spazio dei possibili input visivi), ma raramente sono dotati della capacità di rimodellare le proprie rappresentazioni degli obiettivi, di formare nuove astrazioni o di immaginare obiettivi creativi. In questo articolo, introduciamo un agente autotelico potenziato da un modello linguistico (LMA3) che sfrutta un modello linguistico preaddestrato (LM) per supportare la rappresentazione, la generazione e l'apprendimento di obiettivi diversificati, astratti e rilevanti per gli esseri umani. Il LM viene utilizzato come un modello imperfetto della trasmissione culturale umana; un tentativo di catturare aspetti del senso comune, della fisica intuitiva e degli interessi generali degli esseri umani. Nello specifico, supporta tre componenti chiave dell'architettura autotelica: 1) un rietichettatore che descrive gli obiettivi raggiunti nelle traiettorie dell'agente, 2) un generatore di obiettivi che suggerisce nuovi obiettivi di alto livello insieme alla loro scomposizione in sotto-obiettivi che l'agente già padroneggia, e 3) funzioni di ricompensa per ciascuno di questi obiettivi. Senza fare affidamento su rappresentazioni di obiettivi, funzioni di ricompensa o curriculum predefiniti, dimostriamo che gli agenti LMA3 imparano a padroneggiare una vasta gamma di competenze in un ambiente testuale indipendente dal compito.
English
Humans learn to master open-ended repertoires of skills by imagining and
practicing their own goals. This autotelic learning process, literally the
pursuit of self-generated (auto) goals (telos), becomes more and more
open-ended as the goals become more diverse, abstract and creative. The
resulting exploration of the space of possible skills is supported by an
inter-individual exploration: goal representations are culturally evolved and
transmitted across individuals, in particular using language. Current
artificial agents mostly rely on predefined goal representations corresponding
to goal spaces that are either bounded (e.g. list of instructions), or
unbounded (e.g. the space of possible visual inputs) but are rarely endowed
with the ability to reshape their goal representations, to form new
abstractions or to imagine creative goals. In this paper, we introduce a
language model augmented autotelic agent (LMA3) that leverages a pretrained
language model (LM) to support the representation, generation and learning of
diverse, abstract, human-relevant goals. The LM is used as an imperfect model
of human cultural transmission; an attempt to capture aspects of humans'
common-sense, intuitive physics and overall interests. Specifically, it
supports three key components of the autotelic architecture: 1)~a relabeler
that describes the goals achieved in the agent's trajectories, 2)~a goal
generator that suggests new high-level goals along with their decomposition
into subgoals the agent already masters, and 3)~reward functions for each of
these goals. Without relying on any hand-coded goal representations, reward
functions or curriculum, we show that LMA3 agents learn to master a large
diversity of skills in a task-agnostic text-based environment.