ChatPaper.aiChatPaper

ChatMusician: LLM을 활용한 본질적 음악 이해 및 생성

ChatMusician: Understanding and Generating Music Intrinsically with LLM

February 25, 2024
저자: Ruibin Yuan, Hanfeng Lin, Yi Wang, Zeyue Tian, Shangda Wu, Tianhao Shen, Ge Zhang, Yuhang Wu, Cong Liu, Ziya Zhou, Ziyang Ma, Liumeng Xue, Ziyu Wang, Qin Liu, Tianyu Zheng, Yizhi Li, Yinghao Ma, Yiming Liang, Xiaowei Chi, Ruibo Liu, Zili Wang, Pengfei Li, Jingcheng Wu, Chenghua Lin, Qifeng Liu, Tao Jiang, Wenhao Huang, Wenhu Chen, Emmanouil Benetos, Jie Fu, Gus Xia, Roger Dannenberg, Wei Xue, Shiyin Kang, Yike Guo
cs.AI

초록

대규모 언어 모델(LLM)이 텍스트 생성에서 인상적인 능력을 보여주는 반면, 우리는 이러한 능력이 인류의 창의적 언어인 음악으로 일반화되기에는 아직 이르다는 사실을 발견했습니다. 우리는 본질적인 음악 능력을 통합한 오픈소스 LLM인 ChatMusician을 소개합니다. 이 모델은 LLaMA2를 텍스트 호환 음악 표현인 ABC 표기법에 대해 지속적인 사전 학습과 미세 조정을 기반으로 하며, 음악을 제2언어로 취급합니다. ChatMusician은 외부의 다중 모달 신경 구조나 토크나이저 없이 순수 텍스트 토크나이저를 사용하여 음악을 이해하고 생성할 수 있습니다. 흥미롭게도, 음악 능력을 부여하는 것이 언어 능력을 해치지 않으며, 오히려 MMLU 점수가 약간 더 높아지는 결과를 보였습니다. 우리의 모델은 텍스트, 코드, 멜로디, 모티프, 음악 형식 등을 조건으로 잘 구조화된 완전한 길이의 음악을 작곡할 수 있으며, GPT-4 기준선을 능가합니다. 우리가 신중하게 구성한 대학 수준의 음악 이해 벤치마크인 MusicTheoryBench에서 ChatMusician은 LLaMA2와 GPT-3.5를 제로샷 설정에서 상당한 차이로 앞섰습니다. 우리의 작업은 LLM이 음악을 위한 우수한 압축기일 수 있지만, 여전히 정복해야 할 상당한 영역이 남아 있음을 보여줍니다. 우리는 4B 토큰 음악-언어 코퍼스인 MusicPile, 수집된 MusicTheoryBench, 코드, 모델 및 데모를 GitHub에 공개합니다.
English
While Large Language Models (LLMs) demonstrate impressive capabilities in text generation, we find that their ability has yet to be generalized to music, humanity's creative language. We introduce ChatMusician, an open-source LLM that integrates intrinsic musical abilities. It is based on continual pre-training and finetuning LLaMA2 on a text-compatible music representation, ABC notation, and the music is treated as a second language. ChatMusician can understand and generate music with a pure text tokenizer without any external multi-modal neural structures or tokenizers. Interestingly, endowing musical abilities does not harm language abilities, even achieving a slightly higher MMLU score. Our model is capable of composing well-structured, full-length music, conditioned on texts, chords, melodies, motifs, musical forms, etc, surpassing GPT-4 baseline. On our meticulously curated college-level music understanding benchmark, MusicTheoryBench, ChatMusician surpasses LLaMA2 and GPT-3.5 on zero-shot setting by a noticeable margin. Our work reveals that LLMs can be an excellent compressor for music, but there remains significant territory to be conquered. We release our 4B token music-language corpora MusicPile, the collected MusicTheoryBench, code, model and demo in GitHub.
PDF612December 15, 2024