ChatPaper.aiChatPaper

MusicMagus: Zero-Shot Tekst-naar-Muziek Bewerking via Diffusiemodellen

MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models

February 9, 2024
Auteurs: Yixiao Zhang, Yukara Ikemiya, Gus Xia, Naoki Murata, Marco Martínez, Wei-Hsiang Liao, Yuki Mitsufuji, Simon Dixon
cs.AI

Samenvatting

Recente ontwikkelingen in tekst-naar-muziek-generatiemodellen hebben nieuwe mogelijkheden geopend op het gebied van muzikale creativiteit. Het genereren van muziek vereist echter meestal iteratieve verfijningen, en het bewerken van de gegenereerde muziek blijft een aanzienlijke uitdaging. Dit artikel introduceert een nieuwe benadering voor het bewerken van muziek die door dergelijke modellen is gegenereerd, waardoor specifieke attributen, zoals genre, stemming en instrument, kunnen worden aangepast terwijl andere aspecten ongewijzigd blijven. Onze methode transformeert tekstbewerking naar manipulatie in de latente ruimte, terwijl een extra beperking wordt toegevoegd om consistentie te waarborgen. Het integreert naadloos met bestaande vooraf getrainde tekst-naar-muziek-diffusiemodellen zonder dat aanvullende training vereist is. Experimentele resultaten tonen superieure prestaties aan ten opzichte van zowel zero-shot- als bepaalde gesuperviseerde baseline-methoden in evaluaties van stijl- en timbre-overdracht. Daarnaast demonstreren we de praktische toepasbaarheid van onze benadering in real-world scenario's voor muziekbewerking.
English
Recent advances in text-to-music generation models have opened new avenues in musical creativity. However, music generation usually involves iterative refinements, and how to edit the generated music remains a significant challenge. This paper introduces a novel approach to the editing of music generated by such models, enabling the modification of specific attributes, such as genre, mood and instrument, while maintaining other aspects unchanged. Our method transforms text editing to latent space manipulation while adding an extra constraint to enforce consistency. It seamlessly integrates with existing pretrained text-to-music diffusion models without requiring additional training. Experimental results demonstrate superior performance over both zero-shot and certain supervised baselines in style and timbre transfer evaluations. Additionally, we showcase the practical applicability of our approach in real-world music editing scenarios.
PDF144February 8, 2026