Instruct-MusicGen: Het Ontgrendelen van Tekst-naar-Muziek Bewerking voor Muziektaalmodellen via Instructieafstemming
Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning
May 28, 2024
Auteurs: Yixiao Zhang, Yukara Ikemiya, Woosung Choi, Naoki Murata, Marco A. Martínez-Ramírez, Liwei Lin, Gus Xia, Wei-Hsiang Liao, Yuki Mitsufuji, Simon Dixon
cs.AI
Samenvatting
Recente ontwikkelingen in tekst-naar-muziekbewerking, waarbij tekstquery's worden gebruikt om muziek aan te passen (bijvoorbeeld door de stijl te veranderen of instrumentele componenten aan te passen), bieden unieke uitdagingen en mogelijkheden voor AI-ondersteunde muziekcreatie. Eerdere benaderingen in dit domein werden beperkt door de noodzaak om specifieke bewerkingsmodellen vanaf nul te trainen, wat zowel resource-intensief als inefficiënt is; ander onderzoek maakt gebruik van grote taalmodellen om bewerkte muziek te voorspellen, wat resulteert in onnauwkeurige audioreconstructie. Om de sterke punten te combineren en deze beperkingen aan te pakken, introduceren we Instruct-MusicGen, een nieuwe aanpak die een vooraf getraind MusicGen-model fijnafstelt om efficiënt bewerkingsinstructies te volgen, zoals het toevoegen, verwijderen of scheiden van stems. Onze aanpak omvat een aanpassing van de oorspronkelijke MusicGen-architectuur door het integreren van een tekstfusiemodule en een audiofusiemodule, waardoor het model instructieteksten en audio-inputs gelijktijdig kan verwerken en de gewenste bewerkte muziek kan opleveren. Opmerkelijk is dat Instruct-MusicGen slechts 8% nieuwe parameters introduceert ten opzichte van het oorspronkelijke MusicGen-model en slechts 5K stappen traint, maar toch superieure prestaties behaalt in alle taken vergeleken met bestaande baseline-modellen, en prestaties laat zien die vergelijkbaar zijn met modellen die voor specifieke taken zijn getraind. Deze vooruitgang verbetert niet alleen de efficiëntie van tekst-naar-muziekbewerking, maar breidt ook de toepasbaarheid van muziektaalmodellen uit in dynamische muziekproductieomgevingen.
English
Recent advances in text-to-music editing, which employ text queries to modify
music (e.g.\ by changing its style or adjusting instrumental components),
present unique challenges and opportunities for AI-assisted music creation.
Previous approaches in this domain have been constrained by the necessity to
train specific editing models from scratch, which is both resource-intensive
and inefficient; other research uses large language models to predict edited
music, resulting in imprecise audio reconstruction. To Combine the strengths
and address these limitations, we introduce Instruct-MusicGen, a novel approach
that finetunes a pretrained MusicGen model to efficiently follow editing
instructions such as adding, removing, or separating stems. Our approach
involves a modification of the original MusicGen architecture by incorporating
a text fusion module and an audio fusion module, which allow the model to
process instruction texts and audio inputs concurrently and yield the desired
edited music. Remarkably, Instruct-MusicGen only introduces 8% new parameters
to the original MusicGen model and only trains for 5K steps, yet it achieves
superior performance across all tasks compared to existing baselines, and
demonstrates performance comparable to the models trained for specific tasks.
This advancement not only enhances the efficiency of text-to-music editing but
also broadens the applicability of music language models in dynamic music
production environments.