ChatMusician: LLM을 활용한 본질적 음악 이해 및 생성ChatMusician: Understanding and Generating Music Intrinsically with LLM
대규모 언어 모델(LLM)이 텍스트 생성에서 인상적인 능력을 보여주는 반면, 우리는 이러한 능력이 인류의 창의적 언어인 음악으로 일반화되기에는 아직 이르다는 사실을 발견했습니다. 우리는 본질적인 음악 능력을 통합한 오픈소스 LLM인 ChatMusician을 소개합니다. 이 모델은 LLaMA2를 텍스트 호환 음악 표현인 ABC 표기법에 대해 지속적인 사전 학습과 미세 조정을 기반으로 하며, 음악을 제2언어로 취급합니다. ChatMusician은 외부의 다중 모달 신경 구조나 토크나이저 없이 순수 텍스트 토크나이저를 사용하여 음악을 이해하고 생성할 수 있습니다. 흥미롭게도, 음악 능력을 부여하는 것이 언어 능력을 해치지 않으며, 오히려 MMLU 점수가 약간 더 높아지는 결과를 보였습니다. 우리의 모델은 텍스트, 코드, 멜로디, 모티프, 음악 형식 등을 조건으로 잘 구조화된 완전한 길이의 음악을 작곡할 수 있으며, GPT-4 기준선을 능가합니다. 우리가 신중하게 구성한 대학 수준의 음악 이해 벤치마크인 MusicTheoryBench에서 ChatMusician은 LLaMA2와 GPT-3.5를 제로샷 설정에서 상당한 차이로 앞섰습니다. 우리의 작업은 LLM이 음악을 위한 우수한 압축기일 수 있지만, 여전히 정복해야 할 상당한 영역이 남아 있음을 보여줍니다. 우리는 4B 토큰 음악-언어 코퍼스인 MusicPile, 수집된 MusicTheoryBench, 코드, 모델 및 데모를 GitHub에 공개합니다.