MusicAgent : Un agent IA pour la compréhension et la génération musicale avec des modèles de langage de grande envergure
MusicAgent: An AI Agent for Music Understanding and Generation with Large Language Models
October 18, 2023
Auteurs: Dingyao Yu, Kaitao Song, Peiling Lu, Tianyu He, Xu Tan, Wei Ye, Shikun Zhang, Jiang Bian
cs.AI
Résumé
Le traitement de la musique assisté par l'IA est un domaine diversifié qui englobe des dizaines de tâches, allant des tâches de génération (par exemple, la synthèse de timbres) aux tâches de compréhension (par exemple, la classification musicale). Pour les développeurs et les amateurs, il est très difficile de maîtriser toutes ces tâches pour répondre à leurs besoins en matière de traitement musical, surtout en considérant les énormes différences dans les représentations des données musicales et l'applicabilité des modèles sur différentes plateformes parmi les diverses tâches. Par conséquent, il est nécessaire de construire un système pour organiser et intégrer ces tâches, et ainsi aider les praticiens à analyser automatiquement leurs besoins et à appeler les outils appropriés comme solutions pour répondre à leurs exigences. Inspirés par le récent succès des grands modèles de langage (LLMs) dans l'automatisation des tâches, nous développons un système, nommé MusicAgent, qui intègre de nombreux outils liés à la musique et un flux de travail autonome pour répondre aux besoins des utilisateurs. Plus précisément, nous construisons 1) un ensemble d'outils qui collecte des outils provenant de diverses sources, y compris Hugging Face, GitHub, et les API Web, etc. 2) un flux de travail autonome alimenté par des LLMs (par exemple, ChatGPT) pour organiser ces outils et décomposer automatiquement les demandes des utilisateurs en plusieurs sous-tâches et invoquer les outils musicaux correspondants. L'objectif principal de ce système est de libérer les utilisateurs des complexités des outils IA-musique, leur permettant de se concentrer sur l'aspect créatif. En offrant aux utilisateurs la liberté de combiner facilement les outils, le système propose une expérience musicale fluide et enrichissante.
English
AI-empowered music processing is a diverse field that encompasses dozens of
tasks, ranging from generation tasks (e.g., timbre synthesis) to comprehension
tasks (e.g., music classification). For developers and amateurs, it is very
difficult to grasp all of these task to satisfy their requirements in music
processing, especially considering the huge differences in the representations
of music data and the model applicability across platforms among various tasks.
Consequently, it is necessary to build a system to organize and integrate these
tasks, and thus help practitioners to automatically analyze their demand and
call suitable tools as solutions to fulfill their requirements. Inspired by the
recent success of large language models (LLMs) in task automation, we develop a
system, named MusicAgent, which integrates numerous music-related tools and an
autonomous workflow to address user requirements. More specifically, we build
1) toolset that collects tools from diverse sources, including Hugging Face,
GitHub, and Web API, etc. 2) an autonomous workflow empowered by LLMs (e.g.,
ChatGPT) to organize these tools and automatically decompose user requests into
multiple sub-tasks and invoke corresponding music tools. The primary goal of
this system is to free users from the intricacies of AI-music tools, enabling
them to concentrate on the creative aspect. By granting users the freedom to
effortlessly combine tools, the system offers a seamless and enriching music
experience.