ChatPaper.aiChatPaper

MusicMagus: Edição de Texto para Música com Zero-Shot via Modelos de Difusão

MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models

February 9, 2024
Autores: Yixiao Zhang, Yukara Ikemiya, Gus Xia, Naoki Murata, Marco Martínez, Wei-Hsiang Liao, Yuki Mitsufuji, Simon Dixon
cs.AI

Resumo

Os avanços recentes nos modelos de geração de música a partir de texto abriram novas possibilidades na criatividade musical. No entanto, a geração de música geralmente envolve refinamentos iterativos, e como editar a música gerada continua sendo um desafio significativo. Este artigo apresenta uma abordagem inovadora para a edição de música gerada por esses modelos, permitindo a modificação de atributos específicos, como gênero, humor e instrumento, enquanto mantém outros aspectos inalterados. Nosso método transforma a edição de texto em manipulação do espaço latente, adicionando uma restrição extra para garantir consistência. Ele se integra perfeitamente com modelos de difusão de texto para música pré-treinados existentes, sem a necessidade de treinamento adicional. Os resultados experimentais demonstram um desempenho superior em comparação com abordagens zero-shot e certas baselines supervisionadas em avaliações de transferência de estilo e timbre. Além disso, destacamos a aplicabilidade prática de nossa abordagem em cenários reais de edição musical.
English
Recent advances in text-to-music generation models have opened new avenues in musical creativity. However, music generation usually involves iterative refinements, and how to edit the generated music remains a significant challenge. This paper introduces a novel approach to the editing of music generated by such models, enabling the modification of specific attributes, such as genre, mood and instrument, while maintaining other aspects unchanged. Our method transforms text editing to latent space manipulation while adding an extra constraint to enforce consistency. It seamlessly integrates with existing pretrained text-to-music diffusion models without requiring additional training. Experimental results demonstrate superior performance over both zero-shot and certain supervised baselines in style and timbre transfer evaluations. Additionally, we showcase the practical applicability of our approach in real-world music editing scenarios.
PDF144February 8, 2026