ChatPaper.aiChatPaper

MusicMagus: Zero-Shot-Text-zu-Musik-Bearbeitung mittels Diffusionsmodellen

MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models

February 9, 2024
Autoren: Yixiao Zhang, Yukara Ikemiya, Gus Xia, Naoki Murata, Marco Martínez, Wei-Hsiang Liao, Yuki Mitsufuji, Simon Dixon
cs.AI

Zusammenfassung

Jüngste Fortschritte in Text-zu-Musik-Generierungsmodellen haben neue Wege in der musikalischen Kreativität eröffnet. Allerdings erfordert die Musikgenerierung in der Regel iterative Verfeinerungen, und die Bearbeitung der generierten Musik bleibt eine große Herausforderung. Dieses Papier stellt einen neuartigen Ansatz zur Bearbeitung von Musik vor, die durch solche Modelle erzeugt wurde, und ermöglicht die Modifikation spezifischer Attribute wie Genre, Stimmung und Instrument, während andere Aspekte unverändert bleiben. Unsere Methode transformiert Textbearbeitung in eine Manipulation des latenten Raums, während eine zusätzliche Einschränkung hinzugefügt wird, um Konsistenz zu gewährleisten. Sie integriert sich nahtlos in bestehende vortrainierte Text-zu-Musik-Diffusionsmodelle, ohne zusätzliches Training zu erfordern. Experimentelle Ergebnisse zeigen eine überlegene Leistung gegenüber sowohl Zero-Shot- als auch bestimmten überwachten Baseline-Modellen in Bewertungen von Stil- und Klangfarbentransfer. Zudem demonstrieren wir die praktische Anwendbarkeit unseres Ansatzes in realen Musikbearbeitungsszenarien.
English
Recent advances in text-to-music generation models have opened new avenues in musical creativity. However, music generation usually involves iterative refinements, and how to edit the generated music remains a significant challenge. This paper introduces a novel approach to the editing of music generated by such models, enabling the modification of specific attributes, such as genre, mood and instrument, while maintaining other aspects unchanged. Our method transforms text editing to latent space manipulation while adding an extra constraint to enforce consistency. It seamlessly integrates with existing pretrained text-to-music diffusion models without requiring additional training. Experimental results demonstrate superior performance over both zero-shot and certain supervised baselines in style and timbre transfer evaluations. Additionally, we showcase the practical applicability of our approach in real-world music editing scenarios.
PDF154December 15, 2024