ChatPaper.aiChatPaper

Lernen, die Welt mit Sprache zu modellieren

Learning to Model the World with Language

July 31, 2023
Autoren: Jessy Lin, Yuqing Du, Olivia Watkins, Danijar Hafner, Pieter Abbeel, Dan Klein, Anca Dragan
cs.AI

Zusammenfassung

Um mit Menschen in der Welt zu interagieren, müssen Agenten die vielfältigen Arten von Sprache, die Menschen verwenden, verstehen, sie mit der visuellen Welt in Beziehung setzen und entsprechend handeln. Während aktuelle Agenten lernen, einfache Sprachanweisungen durch Aufgabenbelohnungen auszuführen, streben wir an, Agenten zu entwickeln, die vielfältige Sprache nutzen, die allgemeines Wissen vermittelt, den Zustand der Welt beschreibt, interaktives Feedback bietet und mehr. Unsere zentrale Idee ist, dass Sprache Agenten hilft, die Zukunft vorherzusagen: was beobachtet wird, wie sich die Welt verhalten wird und welche Situationen belohnt werden. Diese Perspektive vereint Sprachverständnis mit Zukunftsprognose als ein leistungsstarkes selbstüberwachtes Lernziel. Wir präsentieren Dynalang, einen Agenten, der ein multimodales Weltmodell lernt, das zukünftige Text- und Bildrepräsentationen vorhersagt und aus vorgestellten Modellrollouts handelt. Im Gegensatz zu traditionellen Agenten, die Sprache nur zur Vorhersage von Aktionen verwenden, erwirbt Dynalang ein umfassendes Sprachverständnis, indem er vergangene Sprache auch zur Vorhersage zukünftiger Sprache, Videos und Belohnungen nutzt. Zusätzlich zum Lernen durch Online-Interaktion in einer Umgebung kann Dynalang auf Datensätzen von Text, Videos oder beidem ohne Aktionen oder Belohnungen vortrainiert werden. Von der Verwendung von Sprachhinweisen in Rasterwelten bis zur Navigation durch fotorealistische Scans von Wohnungen nutzt Dynalang verschiedene Arten von Sprache, um die Aufgabenleistung zu verbessern, einschließlich Umgebungsbeschreibungen, Spielregeln und Anweisungen.
English
To interact with humans in the world, agents need to understand the diverse types of language that people use, relate them to the visual world, and act based on them. While current agents learn to execute simple language instructions from task rewards, we aim to build agents that leverage diverse language that conveys general knowledge, describes the state of the world, provides interactive feedback, and more. Our key idea is that language helps agents predict the future: what will be observed, how the world will behave, and which situations will be rewarded. This perspective unifies language understanding with future prediction as a powerful self-supervised learning objective. We present Dynalang, an agent that learns a multimodal world model that predicts future text and image representations and learns to act from imagined model rollouts. Unlike traditional agents that use language only to predict actions, Dynalang acquires rich language understanding by using past language also to predict future language, video, and rewards. In addition to learning from online interaction in an environment, Dynalang can be pretrained on datasets of text, video, or both without actions or rewards. From using language hints in grid worlds to navigating photorealistic scans of homes, Dynalang utilizes diverse types of language to improve task performance, including environment descriptions, game rules, and instructions.
PDF350December 15, 2024