Масштабирование инструктируемых агентов во множестве симулированных миров.

Аннотация

Построение инкорпорированных систем искусственного интеллекта, способных выполнять произвольные языковые инструкции в любой трехмерной среде, является ключевой задачей для создания общего искусственного интеллекта. Достижение этой цели требует научиться связывать язык с восприятием и инкорпорированными действиями для выполнения сложных задач. Проект Scalable, Instructable, Multiworld Agent (SIMA) решает эту проблему, обучая агентов выполнять свободные инструкции в разнообразных виртуальных трехмерных средах, включая подготовленные исследовательские среды, а также открытые коммерческие видеоигры. Наша цель - разработать инструктируемого агента, способного выполнять все, что может сделать человек, в любой симулированной трехмерной среде. Наш подход сосредотачивается на языковой общности, минимизируя предположения. Наши агенты взаимодействуют с окружающей средой в реальном времени, используя универсальный, похожий на человеческий интерфейс: на вход поступают изображения и языковые инструкции, а на выходе - действия с помощью клавиатуры и мыши. Этот общий подход сложен, но позволяет агентам связывать язык в разнообразных визуально сложных и семантически насыщенных средах, а также легко запускать агентов в новых средах. В данной статье мы описываем наши мотивацию и цель, начальные успехи, которые мы достигли, и многообещающие предварительные результаты на нескольких разнообразных исследовательских средах и различных коммерческих видеоиграх.

English

Building embodied AI systems that can follow arbitrary language instructions in any 3D environment is a key challenge for creating general AI. Accomplishing this goal requires learning to ground language in perception and embodied actions, in order to accomplish complex tasks. The Scalable, Instructable, Multiworld Agent (SIMA) project tackles this by training agents to follow free-form instructions across a diverse range of virtual 3D environments, including curated research environments as well as open-ended, commercial video games. Our goal is to develop an instructable agent that can accomplish anything a human can do in any simulated 3D environment. Our approach focuses on language-driven generality while imposing minimal assumptions. Our agents interact with environments in real-time using a generic, human-like interface: the inputs are image observations and language instructions and the outputs are keyboard-and-mouse actions. This general approach is challenging, but it allows agents to ground language across many visually complex and semantically rich environments while also allowing us to readily run agents in new environments. In this paper we describe our motivation and goal, the initial progress we have made, and promising preliminary results on several diverse research environments and a variety of commercial video games.

Масштабирование инструктируемых агентов во множестве симулированных миров.

Scaling Instructable Agents Across Many Simulated Worlds

Аннотация

Support