ChatPaper.aiChatPaper

MusicMagus : Édition texte-à-musique en zero-shot via des modèles de diffusion

MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models

February 9, 2024
papers.authors: Yixiao Zhang, Yukara Ikemiya, Gus Xia, Naoki Murata, Marco Martínez, Wei-Hsiang Liao, Yuki Mitsufuji, Simon Dixon
cs.AI

papers.abstract

Les récents progrès dans les modèles de génération de musique à partir de texte ont ouvert de nouvelles perspectives en matière de créativité musicale. Cependant, la génération de musique implique généralement des raffinements itératifs, et la manière de modifier la musique générée reste un défi majeur. Cet article présente une nouvelle approche pour l'édition de musique générée par de tels modèles, permettant la modification d'attributs spécifiques, tels que le genre, l'ambiance et les instruments, tout en conservant les autres aspects inchangés. Notre méthode transforme l'édition de texte en manipulation de l'espace latent tout en ajoutant une contrainte supplémentaire pour assurer la cohérence. Elle s'intègre de manière transparente avec les modèles de diffusion pré-entraînés existants pour la génération de musique à partir de texte, sans nécessiter d'entraînement supplémentaire. Les résultats expérimentaux démontrent une performance supérieure à la fois aux approches zero-shot et à certains modèles supervisés de référence dans les évaluations de transfert de style et de timbre. De plus, nous illustrons l'applicabilité pratique de notre approche dans des scénarios réels d'édition musicale.
English
Recent advances in text-to-music generation models have opened new avenues in musical creativity. However, music generation usually involves iterative refinements, and how to edit the generated music remains a significant challenge. This paper introduces a novel approach to the editing of music generated by such models, enabling the modification of specific attributes, such as genre, mood and instrument, while maintaining other aspects unchanged. Our method transforms text editing to latent space manipulation while adding an extra constraint to enforce consistency. It seamlessly integrates with existing pretrained text-to-music diffusion models without requiring additional training. Experimental results demonstrate superior performance over both zero-shot and certain supervised baselines in style and timbre transfer evaluations. Additionally, we showcase the practical applicability of our approach in real-world music editing scenarios.
PDF154December 15, 2024