ChatPaper.aiChatPaper

MusicAgent: Un Agente de IA para la Comprensión y Generación de Música con Modelos de Lenguaje a Gran Escala

MusicAgent: An AI Agent for Music Understanding and Generation with Large Language Models

October 18, 2023
Autores: Dingyao Yu, Kaitao Song, Peiling Lu, Tianyu He, Xu Tan, Wei Ye, Shikun Zhang, Jiang Bian
cs.AI

Resumen

El procesamiento de música potenciado por IA es un campo diverso que abarca docenas de tareas, desde tareas de generación (por ejemplo, síntesis de timbre) hasta tareas de comprensión (por ejemplo, clasificación de música). Para desarrolladores y aficionados, es muy difícil dominar todas estas tareas para satisfacer sus necesidades en el procesamiento de música, especialmente considerando las enormes diferencias en las representaciones de los datos musicales y la aplicabilidad de los modelos entre plataformas en diversas tareas. En consecuencia, es necesario construir un sistema para organizar e integrar estas tareas, y así ayudar a los profesionales a analizar automáticamente sus demandas y llamar a las herramientas adecuadas como soluciones para cumplir con sus requisitos. Inspirados por el reciente éxito de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) en la automatización de tareas, desarrollamos un sistema, llamado MusicAgent, que integra numerosas herramientas relacionadas con la música y un flujo de trabajo autónomo para abordar las necesidades de los usuarios. Más específicamente, construimos 1) un conjunto de herramientas que recopila herramientas de diversas fuentes, incluyendo Hugging Face, GitHub y API web, entre otras. 2) un flujo de trabajo autónomo potenciado por LLMs (por ejemplo, ChatGPT) para organizar estas herramientas y descomponer automáticamente las solicitudes de los usuarios en múltiples subtareas e invocar las herramientas musicales correspondientes. El objetivo principal de este sistema es liberar a los usuarios de las complejidades de las herramientas de IA musical, permitiéndoles concentrarse en el aspecto creativo. Al otorgar a los usuarios la libertad de combinar herramientas sin esfuerzo, el sistema ofrece una experiencia musical fluida y enriquecedora.
English
AI-empowered music processing is a diverse field that encompasses dozens of tasks, ranging from generation tasks (e.g., timbre synthesis) to comprehension tasks (e.g., music classification). For developers and amateurs, it is very difficult to grasp all of these task to satisfy their requirements in music processing, especially considering the huge differences in the representations of music data and the model applicability across platforms among various tasks. Consequently, it is necessary to build a system to organize and integrate these tasks, and thus help practitioners to automatically analyze their demand and call suitable tools as solutions to fulfill their requirements. Inspired by the recent success of large language models (LLMs) in task automation, we develop a system, named MusicAgent, which integrates numerous music-related tools and an autonomous workflow to address user requirements. More specifically, we build 1) toolset that collects tools from diverse sources, including Hugging Face, GitHub, and Web API, etc. 2) an autonomous workflow empowered by LLMs (e.g., ChatGPT) to organize these tools and automatically decompose user requests into multiple sub-tasks and invoke corresponding music tools. The primary goal of this system is to free users from the intricacies of AI-music tools, enabling them to concentrate on the creative aspect. By granting users the freedom to effortlessly combine tools, the system offers a seamless and enriching music experience.
PDF252December 15, 2024