ChatMusician: Verständnis und Erzeugung von Musik intrinsisch mit LLMChatMusician: Understanding and Generating Music Intrinsically with LLM
Während Large Language Models (LLMs) beeindruckende Fähigkeiten in der Textgenerierung demonstrieren, stellen wir fest, dass ihre Fähigkeiten noch nicht auf Musik, die kreative Sprache der Menschheit, verallgemeinert werden konnten. Wir stellen ChatMusician vor, ein Open-Source-LLM, das intrinsische musikalische Fähigkeiten integriert. Es basiert auf kontinuierlichem Pre-Training und Fine-Tuning von LLaMA2 auf einer textkompatiblen Musikdarstellung, der ABC-Notation, wobei Musik als zweite Sprache behandelt wird. ChatMusician kann Musik verstehen und generieren, indem es einen reinen Text-Tokenizer verwendet, ohne externe multimodale neuronale Strukturen oder Tokenizer. Interessanterweise beeinträchtigt die Verleihung musikalischer Fähigkeiten nicht die Sprachfähigkeiten, sondern erzielt sogar einen leicht höheren MMLU-Score. Unser Modell ist in der Lage, gut strukturierte, vollständige Musikstücke zu komponieren, die auf Texten, Akkorden, Melodien, Motiven, musikalischen Formen usw. basieren, und übertrifft dabei die GPT-4-Baseline. Auf unserem sorgfältig kuratierten Benchmark für das Musikverständnis auf College-Niveau, dem MusicTheoryBench, übertrifft ChatMusician LLaMA2 und GPT-3.5 im Zero-Shot-Setting deutlich. Unsere Arbeit zeigt, dass LLMs ein hervorragender Kompressor für Musik sein können, aber es gibt noch erhebliche Gebiete zu erobern. Wir veröffentlichen unser 4B-Token-Musik-Sprach-Korpus MusicPile, den gesammelten MusicTheoryBench, Code, Modell und Demo auf GitHub.