Imparare a Modellare il Mondo con il Linguaggio
Learning to Model the World with Language
July 31, 2023
Autori: Jessy Lin, Yuqing Du, Olivia Watkins, Danijar Hafner, Pieter Abbeel, Dan Klein, Anca Dragan
cs.AI
Abstract
Per interagire con gli esseri umani nel mondo, gli agenti devono comprendere i diversi tipi di linguaggio che le persone utilizzano, correlarli al mondo visivo e agire in base a essi. Mentre gli agenti attuali imparano a eseguire semplici istruzioni linguistiche attraverso ricompense legate ai compiti, il nostro obiettivo è costruire agenti che sfruttino un linguaggio diversificato che trasmetta conoscenza generale, descriva lo stato del mondo, fornisca feedback interattivo e molto altro. La nostra idea chiave è che il linguaggio aiuta gli agenti a prevedere il futuro: ciò che sarà osservato, come si comporterà il mondo e quali situazioni saranno premiate. Questa prospettiva unisce la comprensione del linguaggio con la previsione del futuro come un potente obiettivo di apprendimento auto-supervisionato. Presentiamo Dynalang, un agente che apprende un modello mondiale multimodale in grado di prevedere rappresentazioni future di testo e immagini e impara ad agire attraverso simulazioni immaginate del modello. A differenza degli agenti tradizionali che utilizzano il linguaggio solo per prevedere azioni, Dynalang acquisisce una ricca comprensione del linguaggio utilizzando il linguaggio passato anche per prevedere il linguaggio futuro, i video e le ricompense. Oltre ad apprendere dall'interazione online in un ambiente, Dynalang può essere preaddestrato su dataset di testo, video o entrambi, senza azioni o ricompense. Dall'utilizzo di suggerimenti linguistici in mondi a griglia alla navigazione di scansioni fotorealistiche di case, Dynalang utilizza diversi tipi di linguaggio per migliorare le prestazioni nei compiti, inclusi descrizioni dell'ambiente, regole del gioco e istruzioni.
English
To interact with humans in the world, agents need to understand the diverse
types of language that people use, relate them to the visual world, and act
based on them. While current agents learn to execute simple language
instructions from task rewards, we aim to build agents that leverage diverse
language that conveys general knowledge, describes the state of the world,
provides interactive feedback, and more. Our key idea is that language helps
agents predict the future: what will be observed, how the world will behave,
and which situations will be rewarded. This perspective unifies language
understanding with future prediction as a powerful self-supervised learning
objective. We present Dynalang, an agent that learns a multimodal world model
that predicts future text and image representations and learns to act from
imagined model rollouts. Unlike traditional agents that use language only to
predict actions, Dynalang acquires rich language understanding by using past
language also to predict future language, video, and rewards. In addition to
learning from online interaction in an environment, Dynalang can be pretrained
on datasets of text, video, or both without actions or rewards. From using
language hints in grid worlds to navigating photorealistic scans of homes,
Dynalang utilizes diverse types of language to improve task performance,
including environment descriptions, game rules, and instructions.