Schaalbare instructiegevoelige agents in meerdere gesimuleerde werelden

Samenvatting

Het ontwikkelen van belichaamde AI-systemen die willekeurige taal-instructies kunnen volgen in elke 3D-omgeving is een belangrijke uitdaging voor het creëren van algemene AI. Het bereiken van dit doel vereist het leren verankeren van taal in perceptie en belichaamde acties, om complexe taken te kunnen uitvoeren. Het Scalable, Instructable, Multiworld Agent (SIMA)-project pakt dit aan door agents te trainen om vrije-vorm instructies te volgen in een diverse reeks virtuele 3D-omgevingen, waaronder gecureerde onderzoeksomgevingen en open-ended commerciële videogames. Ons doel is het ontwikkelen van een instructeerbare agent die alles kan doen wat een mens kan doen in elke gesimuleerde 3D-omgeving. Onze aanpak richt zich op taalgedreven algemeenheid met minimale aannames. Onze agents interacteren in real-time met omgevingen via een generieke, mensachtige interface: de invoer bestaat uit beeldobservaties en taal-instructies, en de uitvoer zijn toetsenbord- en muisacties. Deze algemene aanpak is uitdagend, maar stelt agents in staat om taal te verankeren in vele visueel complexe en semantisch rijke omgevingen, terwijl het ons ook in staat stelt om agents gemakkelijk in nieuwe omgevingen te laten functioneren. In dit artikel beschrijven we onze motivatie en doelstelling, de initiële voortgang die we hebben geboekt, en veelbelovende voorlopige resultaten in diverse onderzoeksomgevingen en een verscheidenheid aan commerciële videogames.

English

Building embodied AI systems that can follow arbitrary language instructions in any 3D environment is a key challenge for creating general AI. Accomplishing this goal requires learning to ground language in perception and embodied actions, in order to accomplish complex tasks. The Scalable, Instructable, Multiworld Agent (SIMA) project tackles this by training agents to follow free-form instructions across a diverse range of virtual 3D environments, including curated research environments as well as open-ended, commercial video games. Our goal is to develop an instructable agent that can accomplish anything a human can do in any simulated 3D environment. Our approach focuses on language-driven generality while imposing minimal assumptions. Our agents interact with environments in real-time using a generic, human-like interface: the inputs are image observations and language instructions and the outputs are keyboard-and-mouse actions. This general approach is challenging, but it allows agents to ground language across many visually complex and semantically rich environments while also allowing us to readily run agents in new environments. In this paper we describe our motivation and goal, the initial progress we have made, and promising preliminary results on several diverse research environments and a variety of commercial video games.

Schaalbare instructiegevoelige agents in meerdere gesimuleerde werelden

Scaling Instructable Agents Across Many Simulated Worlds

Samenvatting

Support