ChatMusician: LLMを活用した音楽の本質的理解と生成ChatMusician: Understanding and Generating Music Intrinsically with LLM
大規模言語モデル(LLM)はテキスト生成において印象的な能力を示すが、その能力はまだ人類の創造的言語である音楽にまで一般化されていないことがわかります。本論文では、内在的な音楽能力を統合したオープンソースのLLMであるChatMusicianを紹介します。これは、テキスト互換の音楽表現であるABC記譜法を用いてLLaMA2を継続的に事前学習および微調整し、音楽を第二言語として扱うことに基づいています。ChatMusicianは、外部のマルチモーダルニューラル構造やトークナイザーを一切使用せず、純粋なテキストトークナイザーで音楽を理解し生成することができます。興味深いことに、音楽能力を付与しても言語能力が損なわれることはなく、むしろMMLUスコアがわずかに向上しています。私たちのモデルは、テキスト、コード、メロディー、モチーフ、音楽形式などに基づいて、構造的に整ったフルレングスの音楽を作曲することができ、GPT-4のベースラインを上回ります。私たちが入念に作成した大学レベルの音楽理解ベンチマークであるMusicTheoryBenchにおいて、ChatMusicianはゼロショット設定でLLaMA2とGPT-3.5を顕著な差で上回ります。私たちの研究は、LLMが音楽の優れた圧縮器となり得ることを示していますが、まだ征服すべき重要な領域が残されています。私たちは、4Bトークンの音楽言語コーパスであるMusicPile、収集したMusicTheoryBench、コード、モデル、デモをGitHubで公開しています。