ChatPaper.aiChatPaper

ChatMusician: LLMを活用した音楽の本質的理解と生成

ChatMusician: Understanding and Generating Music Intrinsically with LLM

February 25, 2024
著者: Ruibin Yuan, Hanfeng Lin, Yi Wang, Zeyue Tian, Shangda Wu, Tianhao Shen, Ge Zhang, Yuhang Wu, Cong Liu, Ziya Zhou, Ziyang Ma, Liumeng Xue, Ziyu Wang, Qin Liu, Tianyu Zheng, Yizhi Li, Yinghao Ma, Yiming Liang, Xiaowei Chi, Ruibo Liu, Zili Wang, Pengfei Li, Jingcheng Wu, Chenghua Lin, Qifeng Liu, Tao Jiang, Wenhao Huang, Wenhu Chen, Emmanouil Benetos, Jie Fu, Gus Xia, Roger Dannenberg, Wei Xue, Shiyin Kang, Yike Guo
cs.AI

要旨

大規模言語モデル(LLM)はテキスト生成において印象的な能力を示すが、その能力はまだ人類の創造的言語である音楽にまで一般化されていないことがわかります。本論文では、内在的な音楽能力を統合したオープンソースのLLMであるChatMusicianを紹介します。これは、テキスト互換の音楽表現であるABC記譜法を用いてLLaMA2を継続的に事前学習および微調整し、音楽を第二言語として扱うことに基づいています。ChatMusicianは、外部のマルチモーダルニューラル構造やトークナイザーを一切使用せず、純粋なテキストトークナイザーで音楽を理解し生成することができます。興味深いことに、音楽能力を付与しても言語能力が損なわれることはなく、むしろMMLUスコアがわずかに向上しています。私たちのモデルは、テキスト、コード、メロディー、モチーフ、音楽形式などに基づいて、構造的に整ったフルレングスの音楽を作曲することができ、GPT-4のベースラインを上回ります。私たちが入念に作成した大学レベルの音楽理解ベンチマークであるMusicTheoryBenchにおいて、ChatMusicianはゼロショット設定でLLaMA2とGPT-3.5を顕著な差で上回ります。私たちの研究は、LLMが音楽の優れた圧縮器となり得ることを示していますが、まだ征服すべき重要な領域が残されています。私たちは、4Bトークンの音楽言語コーパスであるMusicPile、収集したMusicTheoryBench、コード、モデル、デモをGitHubで公開しています。
English
While Large Language Models (LLMs) demonstrate impressive capabilities in text generation, we find that their ability has yet to be generalized to music, humanity's creative language. We introduce ChatMusician, an open-source LLM that integrates intrinsic musical abilities. It is based on continual pre-training and finetuning LLaMA2 on a text-compatible music representation, ABC notation, and the music is treated as a second language. ChatMusician can understand and generate music with a pure text tokenizer without any external multi-modal neural structures or tokenizers. Interestingly, endowing musical abilities does not harm language abilities, even achieving a slightly higher MMLU score. Our model is capable of composing well-structured, full-length music, conditioned on texts, chords, melodies, motifs, musical forms, etc, surpassing GPT-4 baseline. On our meticulously curated college-level music understanding benchmark, MusicTheoryBench, ChatMusician surpasses LLaMA2 and GPT-3.5 on zero-shot setting by a noticeable margin. Our work reveals that LLMs can be an excellent compressor for music, but there remains significant territory to be conquered. We release our 4B token music-language corpora MusicPile, the collected MusicTheoryBench, code, model and demo in GitHub.
PDF612December 15, 2024