ChatMusician: Verständnis und Erzeugung von Musik intrinsisch mit LLM
ChatMusician: Understanding and Generating Music Intrinsically with LLM
February 25, 2024
Autoren: Ruibin Yuan, Hanfeng Lin, Yi Wang, Zeyue Tian, Shangda Wu, Tianhao Shen, Ge Zhang, Yuhang Wu, Cong Liu, Ziya Zhou, Ziyang Ma, Liumeng Xue, Ziyu Wang, Qin Liu, Tianyu Zheng, Yizhi Li, Yinghao Ma, Yiming Liang, Xiaowei Chi, Ruibo Liu, Zili Wang, Pengfei Li, Jingcheng Wu, Chenghua Lin, Qifeng Liu, Tao Jiang, Wenhao Huang, Wenhu Chen, Emmanouil Benetos, Jie Fu, Gus Xia, Roger Dannenberg, Wei Xue, Shiyin Kang, Yike Guo
cs.AI
Zusammenfassung
Während Large Language Models (LLMs) beeindruckende Fähigkeiten in der Textgenerierung demonstrieren, stellen wir fest, dass ihre Fähigkeiten noch nicht auf Musik, die kreative Sprache der Menschheit, verallgemeinert werden konnten. Wir stellen ChatMusician vor, ein Open-Source-LLM, das intrinsische musikalische Fähigkeiten integriert. Es basiert auf kontinuierlichem Pre-Training und Fine-Tuning von LLaMA2 auf einer textkompatiblen Musikdarstellung, der ABC-Notation, wobei Musik als zweite Sprache behandelt wird. ChatMusician kann Musik verstehen und generieren, indem es einen reinen Text-Tokenizer verwendet, ohne externe multimodale neuronale Strukturen oder Tokenizer. Interessanterweise beeinträchtigt die Verleihung musikalischer Fähigkeiten nicht die Sprachfähigkeiten, sondern erzielt sogar einen leicht höheren MMLU-Score. Unser Modell ist in der Lage, gut strukturierte, vollständige Musikstücke zu komponieren, die auf Texten, Akkorden, Melodien, Motiven, musikalischen Formen usw. basieren, und übertrifft dabei die GPT-4-Baseline. Auf unserem sorgfältig kuratierten Benchmark für das Musikverständnis auf College-Niveau, dem MusicTheoryBench, übertrifft ChatMusician LLaMA2 und GPT-3.5 im Zero-Shot-Setting deutlich. Unsere Arbeit zeigt, dass LLMs ein hervorragender Kompressor für Musik sein können, aber es gibt noch erhebliche Gebiete zu erobern. Wir veröffentlichen unser 4B-Token-Musik-Sprach-Korpus MusicPile, den gesammelten MusicTheoryBench, Code, Modell und Demo auf GitHub.
English
While Large Language Models (LLMs) demonstrate impressive capabilities in
text generation, we find that their ability has yet to be generalized to music,
humanity's creative language. We introduce ChatMusician, an open-source LLM
that integrates intrinsic musical abilities. It is based on continual
pre-training and finetuning LLaMA2 on a text-compatible music representation,
ABC notation, and the music is treated as a second language. ChatMusician can
understand and generate music with a pure text tokenizer without any external
multi-modal neural structures or tokenizers. Interestingly, endowing musical
abilities does not harm language abilities, even achieving a slightly higher
MMLU score. Our model is capable of composing well-structured, full-length
music, conditioned on texts, chords, melodies, motifs, musical forms, etc,
surpassing GPT-4 baseline. On our meticulously curated college-level music
understanding benchmark, MusicTheoryBench, ChatMusician surpasses LLaMA2 and
GPT-3.5 on zero-shot setting by a noticeable margin. Our work reveals that LLMs
can be an excellent compressor for music, but there remains significant
territory to be conquered. We release our 4B token music-language corpora
MusicPile, the collected MusicTheoryBench, code, model and demo in GitHub.