MusicAgent: Um Agente de IA para Compreensão e Geração Musical com Modelos de Linguagem de Grande Escala
MusicAgent: An AI Agent for Music Understanding and Generation with Large Language Models
October 18, 2023
Autores: Dingyao Yu, Kaitao Song, Peiling Lu, Tianyu He, Xu Tan, Wei Ye, Shikun Zhang, Jiang Bian
cs.AI
Resumo
O processamento de música impulsionado por IA é um campo diversificado que abrange dezenas de tarefas, desde tarefas de geração (por exemplo, síntese de timbre) até tarefas de compreensão (por exemplo, classificação de música). Para desenvolvedores e amadores, é muito difícil dominar todas essas tarefas para atender às suas necessidades em processamento de música, especialmente considerando as grandes diferenças nas representações de dados musicais e a aplicabilidade dos modelos em diferentes plataformas entre as várias tarefas. Consequentemente, é necessário construir um sistema para organizar e integrar essas tarefas, ajudando assim os profissionais a analisar automaticamente suas demandas e a chamar ferramentas adequadas como soluções para atender às suas necessidades. Inspirados pelo recente sucesso dos modelos de linguagem de grande escala (LLMs) na automação de tarefas, desenvolvemos um sistema, chamado MusicAgent, que integra inúmeras ferramentas relacionadas à música e um fluxo de trabalho autônomo para atender às necessidades dos usuários. Mais especificamente, construímos 1) um conjunto de ferramentas que coleta ferramentas de diversas fontes, incluindo Hugging Face, GitHub e APIs da web, entre outras; 2) um fluxo de trabalho autônomo impulsionado por LLMs (por exemplo, ChatGPT) para organizar essas ferramentas e decompor automaticamente as solicitações dos usuários em várias subtarefas e invocar as ferramentas musicais correspondentes. O objetivo principal deste sistema é libertar os usuários das complexidades das ferramentas de IA para música, permitindo que se concentrem no aspecto criativo. Ao conceder aos usuários a liberdade de combinar ferramentas sem esforço, o sistema oferece uma experiência musical fluida e enriquecedora.
English
AI-empowered music processing is a diverse field that encompasses dozens of
tasks, ranging from generation tasks (e.g., timbre synthesis) to comprehension
tasks (e.g., music classification). For developers and amateurs, it is very
difficult to grasp all of these task to satisfy their requirements in music
processing, especially considering the huge differences in the representations
of music data and the model applicability across platforms among various tasks.
Consequently, it is necessary to build a system to organize and integrate these
tasks, and thus help practitioners to automatically analyze their demand and
call suitable tools as solutions to fulfill their requirements. Inspired by the
recent success of large language models (LLMs) in task automation, we develop a
system, named MusicAgent, which integrates numerous music-related tools and an
autonomous workflow to address user requirements. More specifically, we build
1) toolset that collects tools from diverse sources, including Hugging Face,
GitHub, and Web API, etc. 2) an autonomous workflow empowered by LLMs (e.g.,
ChatGPT) to organize these tools and automatically decompose user requests into
multiple sub-tasks and invoke corresponding music tools. The primary goal of
this system is to free users from the intricacies of AI-music tools, enabling
them to concentrate on the creative aspect. By granting users the freedom to
effortlessly combine tools, the system offers a seamless and enriching music
experience.