ChatPaper.aiChatPaper

Aprendiendo a modelar el mundo mediante el lenguaje

Learning to Model the World with Language

July 31, 2023
Autores: Jessy Lin, Yuqing Du, Olivia Watkins, Danijar Hafner, Pieter Abbeel, Dan Klein, Anca Dragan
cs.AI

Resumen

Para interactuar con los humanos en el mundo, los agentes necesitan comprender los diversos tipos de lenguaje que las personas utilizan, relacionarlos con el mundo visual y actuar en función de ellos. Si bien los agentes actuales aprenden a ejecutar instrucciones lingüísticas simples a partir de recompensas de tareas, nuestro objetivo es construir agentes que aprovechen un lenguaje diverso que transmita conocimiento general, describa el estado del mundo, proporcione retroalimentación interactiva y más. Nuestra idea clave es que el lenguaje ayuda a los agentes a predecir el futuro: qué se observará, cómo se comportará el mundo y qué situaciones serán recompensadas. Esta perspectiva unifica la comprensión del lenguaje con la predicción del futuro como un objetivo poderoso de aprendizaje autosupervisado. Presentamos Dynalang, un agente que aprende un modelo multimodal del mundo que predice representaciones futuras de texto e imágenes y aprende a actuar a partir de simulaciones generadas por el modelo. A diferencia de los agentes tradicionales que usan el lenguaje solo para predecir acciones, Dynalang adquiere una comprensión profunda del lenguaje al utilizar el lenguaje pasado también para predecir lenguaje futuro, video y recompensas. Además de aprender a partir de la interacción en línea en un entorno, Dynalang puede ser preentrenado en conjuntos de datos de texto, video o ambos sin acciones ni recompensas. Desde el uso de pistas lingüísticas en mundos de cuadrícula hasta la navegación en escaneos fotorrealistas de hogares, Dynalang utiliza diversos tipos de lenguaje para mejorar el rendimiento en tareas, incluyendo descripciones del entorno, reglas de juego e instrucciones.
English
To interact with humans in the world, agents need to understand the diverse types of language that people use, relate them to the visual world, and act based on them. While current agents learn to execute simple language instructions from task rewards, we aim to build agents that leverage diverse language that conveys general knowledge, describes the state of the world, provides interactive feedback, and more. Our key idea is that language helps agents predict the future: what will be observed, how the world will behave, and which situations will be rewarded. This perspective unifies language understanding with future prediction as a powerful self-supervised learning objective. We present Dynalang, an agent that learns a multimodal world model that predicts future text and image representations and learns to act from imagined model rollouts. Unlike traditional agents that use language only to predict actions, Dynalang acquires rich language understanding by using past language also to predict future language, video, and rewards. In addition to learning from online interaction in an environment, Dynalang can be pretrained on datasets of text, video, or both without actions or rewards. From using language hints in grid worlds to navigating photorealistic scans of homes, Dynalang utilizes diverse types of language to improve task performance, including environment descriptions, game rules, and instructions.
PDF350December 15, 2024