MusicMagus: Zero-Shot Tekst-naar-Muziek Bewerking via Diffusiemodellen
MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models
February 9, 2024
Auteurs: Yixiao Zhang, Yukara Ikemiya, Gus Xia, Naoki Murata, Marco Martínez, Wei-Hsiang Liao, Yuki Mitsufuji, Simon Dixon
cs.AI
Samenvatting
Recente ontwikkelingen in tekst-naar-muziek-generatiemodellen hebben nieuwe mogelijkheden geopend op het gebied van muzikale creativiteit. Het genereren van muziek vereist echter meestal iteratieve verfijningen, en het bewerken van de gegenereerde muziek blijft een aanzienlijke uitdaging. Dit artikel introduceert een nieuwe benadering voor het bewerken van muziek die door dergelijke modellen is gegenereerd, waardoor specifieke attributen, zoals genre, stemming en instrument, kunnen worden aangepast terwijl andere aspecten ongewijzigd blijven. Onze methode transformeert tekstbewerking naar manipulatie in de latente ruimte, terwijl een extra beperking wordt toegevoegd om consistentie te waarborgen. Het integreert naadloos met bestaande vooraf getrainde tekst-naar-muziek-diffusiemodellen zonder dat aanvullende training vereist is. Experimentele resultaten tonen superieure prestaties aan ten opzichte van zowel zero-shot- als bepaalde gesuperviseerde baseline-methoden in evaluaties van stijl- en timbre-overdracht. Daarnaast demonstreren we de praktische toepasbaarheid van onze benadering in real-world scenario's voor muziekbewerking.
English
Recent advances in text-to-music generation models have opened new avenues in
musical creativity. However, music generation usually involves iterative
refinements, and how to edit the generated music remains a significant
challenge. This paper introduces a novel approach to the editing of music
generated by such models, enabling the modification of specific attributes,
such as genre, mood and instrument, while maintaining other aspects unchanged.
Our method transforms text editing to latent space manipulation while
adding an extra constraint to enforce consistency. It seamlessly integrates
with existing pretrained text-to-music diffusion models without requiring
additional training. Experimental results demonstrate superior performance over
both zero-shot and certain supervised baselines in style and timbre transfer
evaluations. Additionally, we showcase the practical applicability of our
approach in real-world music editing scenarios.