Leren om de wereld te modelleren met taal
Learning to Model the World with Language
July 31, 2023
Auteurs: Jessy Lin, Yuqing Du, Olivia Watkins, Danijar Hafner, Pieter Abbeel, Dan Klein, Anca Dragan
cs.AI
Samenvatting
Om met mensen in de wereld te interageren, moeten agenten de diverse soorten taal die mensen gebruiken begrijpen, deze relateren aan de visuele wereld en erop handelen. Hoewel huidige agenten leren om eenvoudige taalopdrachten uit te voeren op basis van taakbeloningen, streven wij ernaar om agenten te bouwen die diverse taal benutten die algemene kennis overbrengt, de staat van de wereld beschrijft, interactieve feedback geeft, en meer. Onze kernidee is dat taal agenten helpt de toekomst te voorspellen: wat er zal worden waargenomen, hoe de wereld zich zal gedragen, en welke situaties beloond zullen worden. Dit perspectief verenigt taalbegrip met toekomstvoorspelling als een krachtig zelfgesuperviseerd leerdoel. Wij presenteren Dynalang, een agent die een multimodaal wereldmodel leert dat toekomstige tekst- en beeldrepresentaties voorspelt en leert te handelen vanuit geïmagineerde modelrollouts. In tegenstelling tot traditionele agenten die taal alleen gebruiken om acties te voorspellen, verwerft Dynalang rijk taalbegrip door ook eerdere taal te gebruiken om toekomstige taal, video en beloningen te voorspellen. Naast het leren van online interactie in een omgeving, kan Dynalang worden voorgetraind op datasets van tekst, video, of beide zonder acties of beloningen. Van het gebruik van taalaanwijzingen in rasterwerelden tot het navigeren door fotorealistische scans van huizen, benut Dynalang diverse soorten taal om de taakprestaties te verbeteren, waaronder omgevingsbeschrijvingen, spelregels en instructies.
English
To interact with humans in the world, agents need to understand the diverse
types of language that people use, relate them to the visual world, and act
based on them. While current agents learn to execute simple language
instructions from task rewards, we aim to build agents that leverage diverse
language that conveys general knowledge, describes the state of the world,
provides interactive feedback, and more. Our key idea is that language helps
agents predict the future: what will be observed, how the world will behave,
and which situations will be rewarded. This perspective unifies language
understanding with future prediction as a powerful self-supervised learning
objective. We present Dynalang, an agent that learns a multimodal world model
that predicts future text and image representations and learns to act from
imagined model rollouts. Unlike traditional agents that use language only to
predict actions, Dynalang acquires rich language understanding by using past
language also to predict future language, video, and rewards. In addition to
learning from online interaction in an environment, Dynalang can be pretrained
on datasets of text, video, or both without actions or rewards. From using
language hints in grid worlds to navigating photorealistic scans of homes,
Dynalang utilizes diverse types of language to improve task performance,
including environment descriptions, game rules, and instructions.