ChatPaper.aiChatPaper

Apprendre à modéliser le monde à travers le langage

Learning to Model the World with Language

July 31, 2023
Auteurs: Jessy Lin, Yuqing Du, Olivia Watkins, Danijar Hafner, Pieter Abbeel, Dan Klein, Anca Dragan
cs.AI

Résumé

Pour interagir avec les humains dans le monde, les agents doivent comprendre les divers types de langage que les gens utilisent, les relier au monde visuel et agir en conséquence. Alors que les agents actuels apprennent à exécuter des instructions linguistiques simples à partir de récompenses de tâches, nous visons à construire des agents qui exploitent un langage diversifié, véhiculant des connaissances générales, décrivant l'état du monde, fournissant des retours interactifs, et plus encore. Notre idée clé est que le langage aide les agents à prédire l'avenir : ce qui sera observé, comment le monde se comportera, et quelles situations seront récompensées. Cette perspective unifie la compréhension du langage avec la prédiction future comme un objectif puissant d'apprentissage auto-supervisé. Nous présentons Dynalang, un agent qui apprend un modèle de monde multimodal prédisant les représentations futures de texte et d'images, et apprend à agir à partir de simulations de modèle imaginées. Contrairement aux agents traditionnels qui utilisent le langage uniquement pour prédire des actions, Dynalang acquiert une compréhension riche du langage en utilisant le langage passé pour prédire également le langage futur, la vidéo et les récompenses. En plus d'apprendre à partir d'interactions en ligne dans un environnement, Dynalang peut être pré-entraîné sur des ensembles de données de texte, de vidéo, ou les deux, sans actions ni récompenses. De l'utilisation d'indices linguistiques dans des mondes en grille à la navigation dans des scans photoréalistes de maisons, Dynalang exploite divers types de langage pour améliorer la performance des tâches, y compris les descriptions d'environnement, les règles de jeu et les instructions.
English
To interact with humans in the world, agents need to understand the diverse types of language that people use, relate them to the visual world, and act based on them. While current agents learn to execute simple language instructions from task rewards, we aim to build agents that leverage diverse language that conveys general knowledge, describes the state of the world, provides interactive feedback, and more. Our key idea is that language helps agents predict the future: what will be observed, how the world will behave, and which situations will be rewarded. This perspective unifies language understanding with future prediction as a powerful self-supervised learning objective. We present Dynalang, an agent that learns a multimodal world model that predicts future text and image representations and learns to act from imagined model rollouts. Unlike traditional agents that use language only to predict actions, Dynalang acquires rich language understanding by using past language also to predict future language, video, and rewards. In addition to learning from online interaction in an environment, Dynalang can be pretrained on datasets of text, video, or both without actions or rewards. From using language hints in grid worlds to navigating photorealistic scans of homes, Dynalang utilizes diverse types of language to improve task performance, including environment descriptions, game rules, and instructions.
PDF350December 15, 2024