MusicMagus: Zero-Shot-Text-zu-Musik-Bearbeitung mittels Diffusionsmodellen
MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models
February 9, 2024
Autoren: Yixiao Zhang, Yukara Ikemiya, Gus Xia, Naoki Murata, Marco Martínez, Wei-Hsiang Liao, Yuki Mitsufuji, Simon Dixon
cs.AI
Zusammenfassung
Jüngste Fortschritte in Text-zu-Musik-Generierungsmodellen haben neue Wege in der musikalischen Kreativität eröffnet. Allerdings erfordert die Musikgenerierung in der Regel iterative Verfeinerungen, und die Bearbeitung der generierten Musik bleibt eine große Herausforderung. Dieses Papier stellt einen neuartigen Ansatz zur Bearbeitung von Musik vor, die durch solche Modelle erzeugt wurde, und ermöglicht die Modifikation spezifischer Attribute wie Genre, Stimmung und Instrument, während andere Aspekte unverändert bleiben. Unsere Methode transformiert Textbearbeitung in eine Manipulation des latenten Raums, während eine zusätzliche Einschränkung hinzugefügt wird, um Konsistenz zu gewährleisten. Sie integriert sich nahtlos in bestehende vortrainierte Text-zu-Musik-Diffusionsmodelle, ohne zusätzliches Training zu erfordern. Experimentelle Ergebnisse zeigen eine überlegene Leistung gegenüber sowohl Zero-Shot- als auch bestimmten überwachten Baseline-Modellen in Bewertungen von Stil- und Klangfarbentransfer. Zudem demonstrieren wir die praktische Anwendbarkeit unseres Ansatzes in realen Musikbearbeitungsszenarien.
English
Recent advances in text-to-music generation models have opened new avenues in
musical creativity. However, music generation usually involves iterative
refinements, and how to edit the generated music remains a significant
challenge. This paper introduces a novel approach to the editing of music
generated by such models, enabling the modification of specific attributes,
such as genre, mood and instrument, while maintaining other aspects unchanged.
Our method transforms text editing to latent space manipulation while
adding an extra constraint to enforce consistency. It seamlessly integrates
with existing pretrained text-to-music diffusion models without requiring
additional training. Experimental results demonstrate superior performance over
both zero-shot and certain supervised baselines in style and timbre transfer
evaluations. Additionally, we showcase the practical applicability of our
approach in real-world music editing scenarios.