ChatMusician: Comprensión y generación de música intrínseca con modelos de lenguaje grandes (LLM)
ChatMusician: Understanding and Generating Music Intrinsically with LLM
February 25, 2024
Autores: Ruibin Yuan, Hanfeng Lin, Yi Wang, Zeyue Tian, Shangda Wu, Tianhao Shen, Ge Zhang, Yuhang Wu, Cong Liu, Ziya Zhou, Ziyang Ma, Liumeng Xue, Ziyu Wang, Qin Liu, Tianyu Zheng, Yizhi Li, Yinghao Ma, Yiming Liang, Xiaowei Chi, Ruibo Liu, Zili Wang, Pengfei Li, Jingcheng Wu, Chenghua Lin, Qifeng Liu, Tao Jiang, Wenhao Huang, Wenhu Chen, Emmanouil Benetos, Jie Fu, Gus Xia, Roger Dannenberg, Wei Xue, Shiyin Kang, Yike Guo
cs.AI
Resumen
Si bien los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) demuestran capacidades impresionantes en la generación de texto, encontramos que su habilidad aún no se ha generalizado a la música, el lenguaje creativo de la humanidad. Presentamos ChatMusician, un LLM de código abierto que integra habilidades musicales intrínsecas. Se basa en el preentrenamiento continuo y el ajuste fino de LLaMA2 en una representación musical compatible con texto, la notación ABC, donde la música es tratada como un segundo lenguaje. ChatMusician puede comprender y generar música con un tokenizador de texto puro, sin necesidad de estructuras neuronales multimodales o tokenizadores externos. Curiosamente, dotar de habilidades musicales no perjudica las habilidades lingüísticas, incluso logrando un puntaje ligeramente superior en MMLU. Nuestro modelo es capaz de componer música bien estructurada y de larga duración, condicionada por textos, acordes, melodías, motivos, formas musicales, etc., superando la línea base de GPT-4. En nuestro meticulosamente elaborado benchmark de comprensión musical a nivel universitario, MusicTheoryBench, ChatMusician supera a LLaMA2 y GPT-3.5 en un entorno de cero disparos por un margen notable. Nuestro trabajo revela que los LLMs pueden ser un excelente compresor para la música, pero aún queda un territorio significativo por conquistar. Publicamos nuestro corpus de lenguaje musical de 4B tokens, MusicPile, el benchmark recopilado MusicTheoryBench, el código, el modelo y la demostración en GitHub.
English
While Large Language Models (LLMs) demonstrate impressive capabilities in
text generation, we find that their ability has yet to be generalized to music,
humanity's creative language. We introduce ChatMusician, an open-source LLM
that integrates intrinsic musical abilities. It is based on continual
pre-training and finetuning LLaMA2 on a text-compatible music representation,
ABC notation, and the music is treated as a second language. ChatMusician can
understand and generate music with a pure text tokenizer without any external
multi-modal neural structures or tokenizers. Interestingly, endowing musical
abilities does not harm language abilities, even achieving a slightly higher
MMLU score. Our model is capable of composing well-structured, full-length
music, conditioned on texts, chords, melodies, motifs, musical forms, etc,
surpassing GPT-4 baseline. On our meticulously curated college-level music
understanding benchmark, MusicTheoryBench, ChatMusician surpasses LLaMA2 and
GPT-3.5 on zero-shot setting by a noticeable margin. Our work reveals that LLMs
can be an excellent compressor for music, but there remains significant
territory to be conquered. We release our 4B token music-language corpora
MusicPile, the collected MusicTheoryBench, code, model and demo in GitHub.