ChatMusician : Comprendre et générer de la musique intrinsèquement avec un LLMChatMusician: Understanding and Generating Music Intrinsically with LLM
Bien que les modèles de langage à grande échelle (LLMs) démontrent des capacités impressionnantes en génération de texte, nous constatons que leur aptitude n'a pas encore été généralisée à la musique, le langage créatif de l'humanité. Nous présentons ChatMusician, un LLM open-source qui intègre des capacités musicales intrinsèques. Il est basé sur un pré-entraînement continu et un ajustement fin de LLaMA2 sur une représentation musicale compatible avec le texte, la notation ABC, où la musique est traitée comme une seconde langue. ChatMusician peut comprendre et générer de la musique avec un tokeniseur de texte pur, sans aucune structure neuronale ou tokeniseur multimodaux externes. Fait intéressant, l'ajout de capacités musicales ne nuit pas aux compétences linguistiques, atteignant même un score MMLU légèrement supérieur. Notre modèle est capable de composer de la musique bien structurée et de longue durée, conditionnée par des textes, des accords, des mélodies, des motifs, des formes musicales, etc., surpassant la base de référence GPT-4. Sur notre benchmark méticuleusement élaboré de compréhension musicale de niveau universitaire, MusicTheoryBench, ChatMusician surpasse LLaMA2 et GPT-3.5 en configuration zero-shot par une marge notable. Notre travail révèle que les LLMs peuvent être d'excellents compresseurs pour la musique, mais il reste un territoire significatif à conquérir. Nous publions notre corpus de 4B tokens MusicPile, le benchmark MusicTheoryBench collecté, le code, le modèle et une démonstration sur GitHub.