ChatMusician: Comprensión y generación de música intrínseca con modelos de lenguaje grandes (LLM)

Resumen

Si bien los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) demuestran capacidades impresionantes en la generación de texto, encontramos que su habilidad aún no se ha generalizado a la música, el lenguaje creativo de la humanidad. Presentamos ChatMusician, un LLM de código abierto que integra habilidades musicales intrínsecas. Se basa en el preentrenamiento continuo y el ajuste fino de LLaMA2 en una representación musical compatible con texto, la notación ABC, donde la música es tratada como un segundo lenguaje. ChatMusician puede comprender y generar música con un tokenizador de texto puro, sin necesidad de estructuras neuronales multimodales o tokenizadores externos. Curiosamente, dotar de habilidades musicales no perjudica las habilidades lingüísticas, incluso logrando un puntaje ligeramente superior en MMLU. Nuestro modelo es capaz de componer música bien estructurada y de larga duración, condicionada por textos, acordes, melodías, motivos, formas musicales, etc., superando la línea base de GPT-4. En nuestro meticulosamente elaborado benchmark de comprensión musical a nivel universitario, MusicTheoryBench, ChatMusician supera a LLaMA2 y GPT-3.5 en un entorno de cero disparos por un margen notable. Nuestro trabajo revela que los LLMs pueden ser un excelente compresor para la música, pero aún queda un territorio significativo por conquistar. Publicamos nuestro corpus de lenguaje musical de 4B tokens, MusicPile, el benchmark recopilado MusicTheoryBench, el código, el modelo y la demostración en GitHub.

English

While Large Language Models (LLMs) demonstrate impressive capabilities in text generation, we find that their ability has yet to be generalized to music, humanity's creative language. We introduce ChatMusician, an open-source LLM that integrates intrinsic musical abilities. It is based on continual pre-training and finetuning LLaMA2 on a text-compatible music representation, ABC notation, and the music is treated as a second language. ChatMusician can understand and generate music with a pure text tokenizer without any external multi-modal neural structures or tokenizers. Interestingly, endowing musical abilities does not harm language abilities, even achieving a slightly higher MMLU score. Our model is capable of composing well-structured, full-length music, conditioned on texts, chords, melodies, motifs, musical forms, etc, surpassing GPT-4 baseline. On our meticulously curated college-level music understanding benchmark, MusicTheoryBench, ChatMusician surpasses LLaMA2 and GPT-3.5 on zero-shot setting by a noticeable margin. Our work reveals that LLMs can be an excellent compressor for music, but there remains significant territory to be conquered. We release our 4B token music-language corpora MusicPile, the collected MusicTheoryBench, code, model and demo in GitHub.

ChatMusician: Comprensión y generación de música intrínseca con modelos de lenguaje grandes (LLM)

ChatMusician: Understanding and Generating Music Intrinsically with LLM

Resumen

Support