MusicAgent: Een AI-agent voor muziekbegrip en -generatie met Grote Taalmodellen
MusicAgent: An AI Agent for Music Understanding and Generation with Large Language Models
October 18, 2023
Auteurs: Dingyao Yu, Kaitao Song, Peiling Lu, Tianyu He, Xu Tan, Wei Ye, Shikun Zhang, Jiang Bian
cs.AI
Samenvatting
AI-gestuurde muziekverwerking is een divers vakgebied dat tientallen taken omvat, variërend van generatietaken (bijv. timbresynthese) tot begripstaken (bijv. muziekclassificatie). Voor ontwikkelaars en amateurs is het zeer moeilijk om al deze taken te begrijpen om aan hun vereisten in muziekverwerking te voldoen, vooral gezien de enorme verschillen in de representaties van muziekdata en de modeltoepasbaarheid over platforms bij verschillende taken. Daarom is het noodzakelijk om een systeem te bouwen dat deze taken organiseert en integreert, en zo praktijkmensen helpt om automatisch hun behoeften te analyseren en geschikte tools aan te roepen als oplossingen om aan hun vereisten te voldoen. Geïnspireerd door het recente succes van grote taalmodelen (LLMs) in taakautomatisering, ontwikkelen we een systeem, genaamd MusicAgent, dat tal van muziekgerelateerde tools en een autonome workflow integreert om aan gebruikersvereisten te voldoen. Meer specifiek bouwen we 1) een toolset die tools uit diverse bronnen verzamelt, waaronder Hugging Face, GitHub en Web API, enz. 2) een autonome workflow, aangedreven door LLMs (bijv. ChatGPT), om deze tools te organiseren en gebruikersverzoeken automatisch op te splitsen in meerdere subtaken en overeenkomstige muziektools aan te roepen. Het primaire doel van dit systeem is om gebruikers te bevrijden van de complexiteit van AI-muziektools, zodat zij zich kunnen concentreren op het creatieve aspect. Door gebruikers de vrijheid te geven om moeiteloos tools te combineren, biedt het systeem een naadloze en verrijkende muziekervaring.
English
AI-empowered music processing is a diverse field that encompasses dozens of
tasks, ranging from generation tasks (e.g., timbre synthesis) to comprehension
tasks (e.g., music classification). For developers and amateurs, it is very
difficult to grasp all of these task to satisfy their requirements in music
processing, especially considering the huge differences in the representations
of music data and the model applicability across platforms among various tasks.
Consequently, it is necessary to build a system to organize and integrate these
tasks, and thus help practitioners to automatically analyze their demand and
call suitable tools as solutions to fulfill their requirements. Inspired by the
recent success of large language models (LLMs) in task automation, we develop a
system, named MusicAgent, which integrates numerous music-related tools and an
autonomous workflow to address user requirements. More specifically, we build
1) toolset that collects tools from diverse sources, including Hugging Face,
GitHub, and Web API, etc. 2) an autonomous workflow empowered by LLMs (e.g.,
ChatGPT) to organize these tools and automatically decompose user requests into
multiple sub-tasks and invoke corresponding music tools. The primary goal of
this system is to free users from the intricacies of AI-music tools, enabling
them to concentrate on the creative aspect. By granting users the freedom to
effortlessly combine tools, the system offers a seamless and enriching music
experience.