ChatPaper.aiChatPaper

MusicAgent: 대규모 언어 모델을 활용한 음악 이해 및 생성 AI 에이전트

MusicAgent: An AI Agent for Music Understanding and Generation with Large Language Models

October 18, 2023
저자: Dingyao Yu, Kaitao Song, Peiling Lu, Tianyu He, Xu Tan, Wei Ye, Shikun Zhang, Jiang Bian
cs.AI

초록

AI 기반 음악 처리는 음색 합성과 같은 생성 작업부터 음악 분류와 같은 이해 작업에 이르기까지 수십 가지의 다양한 작업을 포괄하는 분야입니다. 개발자와 아마추어에게는 음악 처리에서 자신의 요구 사항을 충족시키기 위해 이러한 모든 작업을 파악하는 것이 매우 어렵습니다. 특히, 다양한 작업 간의 음악 데이터 표현 방식과 플랫폼 간 모델 적용 가능성의 큰 차이를 고려할 때 더욱 그러합니다. 따라서 이러한 작업들을 체계적으로 조직하고 통합하여 실무자가 자신의 요구 사항을 자동으로 분석하고 적합한 도구를 호출하여 해결할 수 있도록 돕는 시스템을 구축하는 것이 필요합니다. 최근 대형 언어 모델(LLM)의 작업 자동화 성공에 영감을 받아, 우리는 MusicAgent라는 시스템을 개발했습니다. 이 시스템은 다양한 음악 관련 도구와 자율적인 워크플로우를 통합하여 사용자 요구 사항을 해결합니다. 보다 구체적으로, 우리는 1) Hugging Face, GitHub, 웹 API 등 다양한 소스에서 도구를 수집하는 도구 세트와 2) LLM(예: ChatGPT)으로 강화된 자율적인 워크플로우를 구축하여 이러한 도구들을 조직하고 사용자 요청을 여러 하위 작업으로 분해하여 해당 음악 도구를 호출합니다. 이 시스템의 주요 목표는 사용자가 AI 음악 도구의 복잡함에서 벗어나 창의적인 측면에 집중할 수 있도록 하는 것입니다. 사용자가 도구를 쉽게 결합할 수 있는 자유를 부여함으로써, 시스템은 원활하고 풍부한 음악 경험을 제공합니다.
English
AI-empowered music processing is a diverse field that encompasses dozens of tasks, ranging from generation tasks (e.g., timbre synthesis) to comprehension tasks (e.g., music classification). For developers and amateurs, it is very difficult to grasp all of these task to satisfy their requirements in music processing, especially considering the huge differences in the representations of music data and the model applicability across platforms among various tasks. Consequently, it is necessary to build a system to organize and integrate these tasks, and thus help practitioners to automatically analyze their demand and call suitable tools as solutions to fulfill their requirements. Inspired by the recent success of large language models (LLMs) in task automation, we develop a system, named MusicAgent, which integrates numerous music-related tools and an autonomous workflow to address user requirements. More specifically, we build 1) toolset that collects tools from diverse sources, including Hugging Face, GitHub, and Web API, etc. 2) an autonomous workflow empowered by LLMs (e.g., ChatGPT) to organize these tools and automatically decompose user requests into multiple sub-tasks and invoke corresponding music tools. The primary goal of this system is to free users from the intricacies of AI-music tools, enabling them to concentrate on the creative aspect. By granting users the freedom to effortlessly combine tools, the system offers a seamless and enriching music experience.
PDF252December 15, 2024