Aprendendo a Modelar o Mundo com a Linguagem
Learning to Model the World with Language
July 31, 2023
Autores: Jessy Lin, Yuqing Du, Olivia Watkins, Danijar Hafner, Pieter Abbeel, Dan Klein, Anca Dragan
cs.AI
Resumo
Para interagir com os humanos no mundo, os agentes precisam compreender os diversos tipos de linguagem que as pessoas utilizam, relacioná-las ao mundo visual e agir com base nelas. Embora os agentes atuais aprendam a executar instruções linguísticas simples a partir de recompensas de tarefas, nosso objetivo é construir agentes que aproveitem a linguagem diversificada que transmite conhecimento geral, descreve o estado do mundo, fornece feedback interativo e muito mais. Nossa ideia central é que a linguagem ajuda os agentes a prever o futuro: o que será observado, como o mundo se comportará e quais situações serão recompensadas. Essa perspectiva unifica a compreensão da linguagem com a previsão do futuro como um objetivo poderoso de aprendizado autossupervisionado. Apresentamos o Dynalang, um agente que aprende um modelo de mundo multimodal que prevê representações futuras de texto e imagem e aprende a agir a partir de simulações imaginadas do modelo. Diferente dos agentes tradicionais, que usam a linguagem apenas para prever ações, o Dynalang adquire uma compreensão rica da linguagem ao utilizar a linguagem passada também para prever linguagem futura, vídeo e recompensas. Além de aprender com a interação online em um ambiente, o Dynalang pode ser pré-treinado em conjuntos de dados de texto, vídeo ou ambos, sem ações ou recompensas. Desde o uso de dicas linguísticas em mundos em grade até a navegação em varreduras fotorrealistas de residências, o Dynalang utiliza diversos tipos de linguagem para melhorar o desempenho em tarefas, incluindo descrições de ambientes, regras de jogos e instruções.
English
To interact with humans in the world, agents need to understand the diverse
types of language that people use, relate them to the visual world, and act
based on them. While current agents learn to execute simple language
instructions from task rewards, we aim to build agents that leverage diverse
language that conveys general knowledge, describes the state of the world,
provides interactive feedback, and more. Our key idea is that language helps
agents predict the future: what will be observed, how the world will behave,
and which situations will be rewarded. This perspective unifies language
understanding with future prediction as a powerful self-supervised learning
objective. We present Dynalang, an agent that learns a multimodal world model
that predicts future text and image representations and learns to act from
imagined model rollouts. Unlike traditional agents that use language only to
predict actions, Dynalang acquires rich language understanding by using past
language also to predict future language, video, and rewards. In addition to
learning from online interaction in an environment, Dynalang can be pretrained
on datasets of text, video, or both without actions or rewards. From using
language hints in grid worlds to navigating photorealistic scans of homes,
Dynalang utilizes diverse types of language to improve task performance,
including environment descriptions, game rules, and instructions.