MusicAgent: Искусственный интеллект для понимания и генерации музыки с использованием крупных языковых моделей
MusicAgent: An AI Agent for Music Understanding and Generation with Large Language Models
October 18, 2023
Авторы: Dingyao Yu, Kaitao Song, Peiling Lu, Tianyu He, Xu Tan, Wei Ye, Shikun Zhang, Jiang Bian
cs.AI
Аннотация
Обработка музыки с использованием искусственного интеллекта представляет собой разнообразную область, охватывающую десятки задач, начиная от задач генерации (например, синтез тембра) до задач анализа (например, классификация музыки). Для разработчиков и любителей крайне сложно охватить все эти задачи, чтобы удовлетворить свои потребности в обработке музыки, особенно учитывая значительные различия в представлении музыкальных данных и применимости моделей на различных платформах для различных задач. Следовательно, необходимо создать систему, которая организует и интегрирует эти задачи, помогая практикам автоматически анализировать свои запросы и вызывать подходящие инструменты для их выполнения. Вдохновленные недавними успехами больших языковых моделей (LLM) в автоматизации задач, мы разработали систему под названием MusicAgent, которая объединяет множество музыкальных инструментов и автономный рабочий процесс для удовлетворения запросов пользователей. Более конкретно, мы создали: 1) набор инструментов, который собирает инструменты из различных источников, включая Hugging Face, GitHub и веб-API, и 2) автономный рабочий процесс, управляемый LLM (например, ChatGPT), который организует эти инструменты и автоматически разбивает запросы пользователей на несколько подзадач, вызывая соответствующие музыкальные инструменты. Основная цель этой системы — освободить пользователей от сложностей работы с инструментами AI-музыки, позволяя им сосредоточиться на творческом аспекте. Предоставляя пользователям возможность легко комбинировать инструменты, система предлагает плавный и обогащающий музыкальный опыт.
English
AI-empowered music processing is a diverse field that encompasses dozens of
tasks, ranging from generation tasks (e.g., timbre synthesis) to comprehension
tasks (e.g., music classification). For developers and amateurs, it is very
difficult to grasp all of these task to satisfy their requirements in music
processing, especially considering the huge differences in the representations
of music data and the model applicability across platforms among various tasks.
Consequently, it is necessary to build a system to organize and integrate these
tasks, and thus help practitioners to automatically analyze their demand and
call suitable tools as solutions to fulfill their requirements. Inspired by the
recent success of large language models (LLMs) in task automation, we develop a
system, named MusicAgent, which integrates numerous music-related tools and an
autonomous workflow to address user requirements. More specifically, we build
1) toolset that collects tools from diverse sources, including Hugging Face,
GitHub, and Web API, etc. 2) an autonomous workflow empowered by LLMs (e.g.,
ChatGPT) to organize these tools and automatically decompose user requests into
multiple sub-tasks and invoke corresponding music tools. The primary goal of
this system is to free users from the intricacies of AI-music tools, enabling
them to concentrate on the creative aspect. By granting users the freedom to
effortlessly combine tools, the system offers a seamless and enriching music
experience.