ChatPaper.aiChatPaper

Обучение моделированию мира с помощью языка

Learning to Model the World with Language

July 31, 2023
Авторы: Jessy Lin, Yuqing Du, Olivia Watkins, Danijar Hafner, Pieter Abbeel, Dan Klein, Anca Dragan
cs.AI

Аннотация

Для взаимодействия с людьми в мире агентам необходимо понимать разнообразные типы языка, которые используют люди, связывать их с визуальным миром и действовать на их основе. Хотя современные агенты учатся выполнять простые языковые инструкции на основе вознаграждений за задачи, мы стремимся создать агентов, которые используют разнообразный язык, передающий общие знания, описывающий состояние мира, предоставляющий интерактивную обратную связь и многое другое. Наша ключевая идея заключается в том, что язык помогает агентам предсказывать будущее: что будет наблюдаться, как будет вести себя мир и какие ситуации будут вознаграждаться. Этот подход объединяет понимание языка с предсказанием будущего как мощную цель самообучения. Мы представляем Dynalang — агента, который изучает мультимодальную модель мира, предсказывающую будущие текстовые и визуальные представления, и учится действовать на основе смоделированных сценариев. В отличие от традиционных агентов, которые используют язык только для предсказания действий, Dynalang приобретает глубокое понимание языка, используя прошлые языковые данные также для предсказания будущего языка, видео и вознаграждений. Помимо обучения в процессе онлайн-взаимодействия в среде, Dynalang может быть предварительно обучен на наборах данных текста, видео или их комбинации без действий или вознаграждений. От использования языковых подсказок в сеточных мирах до навигации по фотореалистичным сканам домов, Dynalang использует разнообразные типы языка для улучшения выполнения задач, включая описания среды, правила игр и инструкции.
English
To interact with humans in the world, agents need to understand the diverse types of language that people use, relate them to the visual world, and act based on them. While current agents learn to execute simple language instructions from task rewards, we aim to build agents that leverage diverse language that conveys general knowledge, describes the state of the world, provides interactive feedback, and more. Our key idea is that language helps agents predict the future: what will be observed, how the world will behave, and which situations will be rewarded. This perspective unifies language understanding with future prediction as a powerful self-supervised learning objective. We present Dynalang, an agent that learns a multimodal world model that predicts future text and image representations and learns to act from imagined model rollouts. Unlike traditional agents that use language only to predict actions, Dynalang acquires rich language understanding by using past language also to predict future language, video, and rewards. In addition to learning from online interaction in an environment, Dynalang can be pretrained on datasets of text, video, or both without actions or rewards. From using language hints in grid worlds to navigating photorealistic scans of homes, Dynalang utilizes diverse types of language to improve task performance, including environment descriptions, game rules, and instructions.
PDF350December 15, 2024