ChatMusician : Comprendre et générer de la musique intrinsèquement avec un LLM

papers.abstract

Bien que les modèles de langage à grande échelle (LLMs) démontrent des capacités impressionnantes en génération de texte, nous constatons que leur aptitude n'a pas encore été généralisée à la musique, le langage créatif de l'humanité. Nous présentons ChatMusician, un LLM open-source qui intègre des capacités musicales intrinsèques. Il est basé sur un pré-entraînement continu et un ajustement fin de LLaMA2 sur une représentation musicale compatible avec le texte, la notation ABC, où la musique est traitée comme une seconde langue. ChatMusician peut comprendre et générer de la musique avec un tokeniseur de texte pur, sans aucune structure neuronale ou tokeniseur multimodaux externes. Fait intéressant, l'ajout de capacités musicales ne nuit pas aux compétences linguistiques, atteignant même un score MMLU légèrement supérieur. Notre modèle est capable de composer de la musique bien structurée et de longue durée, conditionnée par des textes, des accords, des mélodies, des motifs, des formes musicales, etc., surpassant la base de référence GPT-4. Sur notre benchmark méticuleusement élaboré de compréhension musicale de niveau universitaire, MusicTheoryBench, ChatMusician surpasse LLaMA2 et GPT-3.5 en configuration zero-shot par une marge notable. Notre travail révèle que les LLMs peuvent être d'excellents compresseurs pour la musique, mais il reste un territoire significatif à conquérir. Nous publions notre corpus de 4B tokens MusicPile, le benchmark MusicTheoryBench collecté, le code, le modèle et une démonstration sur GitHub.

English

While Large Language Models (LLMs) demonstrate impressive capabilities in text generation, we find that their ability has yet to be generalized to music, humanity's creative language. We introduce ChatMusician, an open-source LLM that integrates intrinsic musical abilities. It is based on continual pre-training and finetuning LLaMA2 on a text-compatible music representation, ABC notation, and the music is treated as a second language. ChatMusician can understand and generate music with a pure text tokenizer without any external multi-modal neural structures or tokenizers. Interestingly, endowing musical abilities does not harm language abilities, even achieving a slightly higher MMLU score. Our model is capable of composing well-structured, full-length music, conditioned on texts, chords, melodies, motifs, musical forms, etc, surpassing GPT-4 baseline. On our meticulously curated college-level music understanding benchmark, MusicTheoryBench, ChatMusician surpasses LLaMA2 and GPT-3.5 on zero-shot setting by a noticeable margin. Our work reveals that LLMs can be an excellent compressor for music, but there remains significant territory to be conquered. We release our 4B token music-language corpora MusicPile, the collected MusicTheoryBench, code, model and demo in GitHub.

ChatMusician : Comprendre et générer de la musique intrinsèquement avec un LLM

ChatMusician: Understanding and Generating Music Intrinsically with LLM

papers.abstract

Support