Instruct-MusicGen: Erschließung von Text-zu-Musik-Bearbeitung für Musiksprachmodelle durch Instruktionstuning
Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning
May 28, 2024
Autoren: Yixiao Zhang, Yukara Ikemiya, Woosung Choi, Naoki Murata, Marco A. Martínez-Ramírez, Liwei Lin, Gus Xia, Wei-Hsiang Liao, Yuki Mitsufuji, Simon Dixon
cs.AI
Zusammenfassung
In jüngster Zeit haben Fortschritte im Bereich der Text-zu-Musik-Bearbeitung, die Textabfragen zur Modifikation von Musik verwenden (z.B. durch Änderung des Stils oder Anpassung von Instrumentalkomponenten), einzigartige Herausforderungen und Chancen für die KI-unterstützte Musikproduktion eröffnet. Frühere Ansätze in diesem Bereich waren durch die Notwendigkeit, spezifische Bearbeitungsmodelle von Grund auf zu trainieren, eingeschränkt, was sowohl ressourcenintensiv als auch ineffizient ist; andere Forschungen nutzen große Sprachmodelle, um bearbeitete Musik vorherzusagen, was zu ungenauer Audiorekonstruktion führt. Um die Stärken zu vereinen und diese Einschränkungen zu überwinden, stellen wir Instruct-MusicGen vor, einen neuartigen Ansatz, der ein vortrainiertes MusicGen-Modell feinabstimmt, um effizient Bearbeitungsanweisungen wie Hinzufügen, Entfernen oder Trennen von Spuren zu befolgen. Unser Ansatz beinhaltet eine Modifikation der ursprünglichen MusicGen-Architektur durch Integration eines Textfusion-Moduls und eines Audiofusion-Moduls, die es dem Modell ermöglichen, Anweisungstexte und Audioeingaben gleichzeitig zu verarbeiten und die gewünschte bearbeitete Musik zu erzeugen. Bemerkenswerterweise führt Instruct-MusicGen nur 8% neue Parameter in das ursprüngliche MusicGen-Modell ein und wird nur für 5.000 Schritte trainiert, erreicht jedoch überlegene Leistung in allen Aufgaben im Vergleich zu bestehenden Baselines und zeigt eine Leistung vergleichbar mit den für spezifische Aufgaben trainierten Modellen. Dieser Fortschritt verbessert nicht nur die Effizienz der Text-zu-Musik-Bearbeitung, sondern erweitert auch die Anwendbarkeit von Musiksprachmodellen in dynamischen Musikproduktionsumgebungen.
English
Recent advances in text-to-music editing, which employ text queries to modify
music (e.g.\ by changing its style or adjusting instrumental components),
present unique challenges and opportunities for AI-assisted music creation.
Previous approaches in this domain have been constrained by the necessity to
train specific editing models from scratch, which is both resource-intensive
and inefficient; other research uses large language models to predict edited
music, resulting in imprecise audio reconstruction. To Combine the strengths
and address these limitations, we introduce Instruct-MusicGen, a novel approach
that finetunes a pretrained MusicGen model to efficiently follow editing
instructions such as adding, removing, or separating stems. Our approach
involves a modification of the original MusicGen architecture by incorporating
a text fusion module and an audio fusion module, which allow the model to
process instruction texts and audio inputs concurrently and yield the desired
edited music. Remarkably, Instruct-MusicGen only introduces 8% new parameters
to the original MusicGen model and only trains for 5K steps, yet it achieves
superior performance across all tasks compared to existing baselines, and
demonstrates performance comparable to the models trained for specific tasks.
This advancement not only enhances the efficiency of text-to-music editing but
also broadens the applicability of music language models in dynamic music
production environments.Summary
AI-Generated Summary