MusicMagus : Édition texte-à-musique en zero-shot via des modèles de diffusion
MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models
February 9, 2024
papers.authors: Yixiao Zhang, Yukara Ikemiya, Gus Xia, Naoki Murata, Marco Martínez, Wei-Hsiang Liao, Yuki Mitsufuji, Simon Dixon
cs.AI
papers.abstract
Les récents progrès dans les modèles de génération de musique à partir de texte ont ouvert de nouvelles perspectives en matière de créativité musicale. Cependant, la génération de musique implique généralement des raffinements itératifs, et la manière de modifier la musique générée reste un défi majeur. Cet article présente une nouvelle approche pour l'édition de musique générée par de tels modèles, permettant la modification d'attributs spécifiques, tels que le genre, l'ambiance et les instruments, tout en conservant les autres aspects inchangés. Notre méthode transforme l'édition de texte en manipulation de l'espace latent tout en ajoutant une contrainte supplémentaire pour assurer la cohérence. Elle s'intègre de manière transparente avec les modèles de diffusion pré-entraînés existants pour la génération de musique à partir de texte, sans nécessiter d'entraînement supplémentaire. Les résultats expérimentaux démontrent une performance supérieure à la fois aux approches zero-shot et à certains modèles supervisés de référence dans les évaluations de transfert de style et de timbre. De plus, nous illustrons l'applicabilité pratique de notre approche dans des scénarios réels d'édition musicale.
English
Recent advances in text-to-music generation models have opened new avenues in
musical creativity. However, music generation usually involves iterative
refinements, and how to edit the generated music remains a significant
challenge. This paper introduces a novel approach to the editing of music
generated by such models, enabling the modification of specific attributes,
such as genre, mood and instrument, while maintaining other aspects unchanged.
Our method transforms text editing to latent space manipulation while
adding an extra constraint to enforce consistency. It seamlessly integrates
with existing pretrained text-to-music diffusion models without requiring
additional training. Experimental results demonstrate superior performance over
both zero-shot and certain supervised baselines in style and timbre transfer
evaluations. Additionally, we showcase the practical applicability of our
approach in real-world music editing scenarios.