Масштабирование инструктируемых агентов во множестве симулированных миров.Scaling Instructable Agents Across Many Simulated Worlds
Построение инкорпорированных систем искусственного интеллекта, способных выполнять произвольные языковые инструкции в любой трехмерной среде, является ключевой задачей для создания общего искусственного интеллекта. Достижение этой цели требует научиться связывать язык с восприятием и инкорпорированными действиями для выполнения сложных задач. Проект Scalable, Instructable, Multiworld Agent (SIMA) решает эту проблему, обучая агентов выполнять свободные инструкции в разнообразных виртуальных трехмерных средах, включая подготовленные исследовательские среды, а также открытые коммерческие видеоигры. Наша цель - разработать инструктируемого агента, способного выполнять все, что может сделать человек, в любой симулированной трехмерной среде. Наш подход сосредотачивается на языковой общности, минимизируя предположения. Наши агенты взаимодействуют с окружающей средой в реальном времени, используя универсальный, похожий на человеческий интерфейс: на вход поступают изображения и языковые инструкции, а на выходе - действия с помощью клавиатуры и мыши. Этот общий подход сложен, но позволяет агентам связывать язык в разнообразных визуально сложных и семантически насыщенных средах, а также легко запускать агентов в новых средах. В данной статье мы описываем наши мотивацию и цель, начальные успехи, которые мы достигли, и многообещающие предварительные результаты на нескольких разнообразных исследовательских средах и различных коммерческих видеоиграх.