Ежедневно отобранные исследовательские статьи по ИИ с переводами
Построение инкорпорированных систем искусственного интеллекта, способных выполнять произвольные языковые инструкции в любой трехмерной среде, является ключевой задачей для создания общего искусственного интеллекта. Достижение этой цели требует научиться связывать язык с восприятием и инкорпорированными действиями для выполнения сложных задач. Проект Scalable, Instructable, Multiworld Agent (SIMA) решает эту проблему, обучая агентов выполнять свободные инструкции в разнообразных виртуальных трехмерных средах, включая подготовленные исследовательские среды, а также открытые коммерческие видеоигры. Наша цель - разработать инструктируемого агента, способного выполнять все, что может сделать человек, в любой симулированной трехмерной среде. Наш подход сосредотачивается на языковой общности, минимизируя предположения. Наши агенты взаимодействуют с окружающей средой в реальном времени, используя универсальный, похожий на человеческий интерфейс: на вход поступают изображения и языковые инструкции, а на выходе - действия с помощью клавиатуры и мыши. Этот общий подход сложен, но позволяет агентам связывать язык в разнообразных визуально сложных и семантически насыщенных средах, а также легко запускать агентов в новых средах. В данной статье мы описываем наши мотивацию и цель, начальные успехи, которые мы достигли, и многообещающие предварительные результаты на нескольких разнообразных исследовательских средах и различных коммерческих видеоиграх.
Аудио-ориентированные генеративные модели для музыки недавно сделали значительные успехи, однако до сих пор не смогли создать полноценные музыкальные композиции с цельной музыкальной структурой. Мы показываем, что обучив генеративную модель на длинных временных контекстах, можно создавать музыку продолжительностью до 4 минут 45 секунд. Наша модель состоит из диффузионного трансформера, работающего с высоко децимированным непрерывным латентным представлением (скорость латентности 21,5 Гц). Она достигает передовых результатов по метрикам качества звука и соответствия запросу, и субъективные тесты показывают, что она создает полноценную музыку с цельной структурой.