대형 언어 모델을 활용한 자율 목적 에이전트 강화
Augmenting Autotelic Agents with Large Language Models
May 21, 2023
저자: Cédric Colas, Laetitia Teodorescu, Pierre-Yves Oudeyer, Xingdi Yuan, Marc-Alexandre Côté
cs.AI
초록
인간은 자신만의 목표를 상상하고 연습함으로써 무한히 확장 가능한 기술 레퍼토리를 숙달하는 법을 배운다. 이러한 자기목적적(autotelic) 학습 과정, 즉 스스로 생성한(auto) 목표(telos)를 추구하는 과정은 목표가 더 다양하고 추상적이며 창의적으로 될수록 점점 더 무한히 확장 가능해진다. 이로 인해 가능한 기술 공간을 탐색하는 과정은 개인 간 탐색에 의해 뒷받침된다: 목표 표현은 문화적으로 진화하며 개인 간에 전달되는데, 특히 언어를 사용하여 전달된다. 현재의 인공 에이전트는 대부분 미리 정의된 목표 표현에 의존하며, 이러한 목표 공간은 제한적(예: 지시 목록)이거나 무제한적(예: 가능한 시각적 입력 공간)이지만, 목표 표현을 재구성하거나 새로운 추상화를 형성하거나 창의적인 목표를 상상하는 능력을 갖추는 경우는 드물다. 본 논문에서는 사전 훈련된 언어 모델(LM)을 활용하여 다양하고 추상적이며 인간과 관련된 목표의 표현, 생성 및 학습을 지원하는 언어 모델 기반 자기목적적 에이전트(LMA3)를 소개한다. 이 언어 모델은 인간의 문화적 전달을 불완전하게 모델링한 것으로, 인간의 상식, 직관적 물리학 및 전반적인 관심사를 포착하려는 시도이다. 구체적으로, 이 모델은 자기목적적 아키텍처의 세 가지 핵심 구성 요소를 지원한다: 1) 에이전트의 궤적에서 달성된 목표를 설명하는 재라벨러(relabeler), 2) 에이전트가 이미 숙달한 하위 목표로 분해될 수 있는 새로운 상위 목표를 제안하는 목표 생성기(goal generator), 그리고 3) 이러한 각 목표에 대한 보상 함수(reward function). 수작업으로 작성된 목표 표현, 보상 함수 또는 커리큘럼에 의존하지 않고, LMA3 에이전트가 작업에 구애받지 않는 텍스트 기반 환경에서 다양한 기술을 숙달하는 법을 학습함을 보여준다.
English
Humans learn to master open-ended repertoires of skills by imagining and
practicing their own goals. This autotelic learning process, literally the
pursuit of self-generated (auto) goals (telos), becomes more and more
open-ended as the goals become more diverse, abstract and creative. The
resulting exploration of the space of possible skills is supported by an
inter-individual exploration: goal representations are culturally evolved and
transmitted across individuals, in particular using language. Current
artificial agents mostly rely on predefined goal representations corresponding
to goal spaces that are either bounded (e.g. list of instructions), or
unbounded (e.g. the space of possible visual inputs) but are rarely endowed
with the ability to reshape their goal representations, to form new
abstractions or to imagine creative goals. In this paper, we introduce a
language model augmented autotelic agent (LMA3) that leverages a pretrained
language model (LM) to support the representation, generation and learning of
diverse, abstract, human-relevant goals. The LM is used as an imperfect model
of human cultural transmission; an attempt to capture aspects of humans'
common-sense, intuitive physics and overall interests. Specifically, it
supports three key components of the autotelic architecture: 1)~a relabeler
that describes the goals achieved in the agent's trajectories, 2)~a goal
generator that suggests new high-level goals along with their decomposition
into subgoals the agent already masters, and 3)~reward functions for each of
these goals. Without relying on any hand-coded goal representations, reward
functions or curriculum, we show that LMA3 agents learn to master a large
diversity of skills in a task-agnostic text-based environment.