ChatMusician: Comprensión y generación de música intrínseca con modelos de lenguaje grandes (LLM)ChatMusician: Understanding and Generating Music Intrinsically with LLM
Si bien los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) demuestran capacidades impresionantes en la generación de texto, encontramos que su habilidad aún no se ha generalizado a la música, el lenguaje creativo de la humanidad. Presentamos ChatMusician, un LLM de código abierto que integra habilidades musicales intrínsecas. Se basa en el preentrenamiento continuo y el ajuste fino de LLaMA2 en una representación musical compatible con texto, la notación ABC, donde la música es tratada como un segundo lenguaje. ChatMusician puede comprender y generar música con un tokenizador de texto puro, sin necesidad de estructuras neuronales multimodales o tokenizadores externos. Curiosamente, dotar de habilidades musicales no perjudica las habilidades lingüísticas, incluso logrando un puntaje ligeramente superior en MMLU. Nuestro modelo es capaz de componer música bien estructurada y de larga duración, condicionada por textos, acordes, melodías, motivos, formas musicales, etc., superando la línea base de GPT-4. En nuestro meticulosamente elaborado benchmark de comprensión musical a nivel universitario, MusicTheoryBench, ChatMusician supera a LLaMA2 y GPT-3.5 en un entorno de cero disparos por un margen notable. Nuestro trabajo revela que los LLMs pueden ser un excelente compresor para la música, pero aún queda un territorio significativo por conquistar. Publicamos nuestro corpus de lenguaje musical de 4B tokens, MusicPile, el benchmark recopilado MusicTheoryBench, el código, el modelo y la demostración en GitHub.