ChatPaper.aiChatPaper

Transferência de Estilo Musical com Inversão Variável no Tempo de Modelos de Difusão

Music Style Transfer with Time-Varying Inversion of Diffusion Models

February 21, 2024
Autores: Sifei Li, Yuxin Zhang, Fan Tang, Chongyang Ma, Weiming dong, Changsheng Xu
cs.AI

Resumo

Com o desenvolvimento dos modelos de difusão, a transferência de estilo de imagem guiada por texto demonstrou resultados de síntese controlada de alta qualidade. No entanto, a utilização de texto para a transferência de estilo musical diversa apresenta desafios significativos, principalmente devido à disponibilidade limitada de conjuntos de dados de áudio-texto correspondentes. A música, sendo uma forma de arte abstrata e complexa, exibe variações e nuances mesmo dentro do mesmo gênero, tornando descrições textuais precisas desafiadoras. Este artigo apresenta uma abordagem de transferência de estilo musical que efetivamente captura atributos musicais utilizando dados mínimos. Introduzimos um novo módulo de inversão textual variável no tempo para capturar com precisão características de mel-espectrogramas em diferentes níveis. Durante a inferência, propomos uma técnica de estilização com redução de viés para obter resultados estáveis. Os resultados experimentais demonstram que nosso método pode transferir o estilo de instrumentos específicos, bem como incorporar sons naturais para compor melodias. Amostras e código-fonte estão disponíveis em https://lsfhuihuiff.github.io/MusicTI/.
English
With the development of diffusion models, text-guided image style transfer has demonstrated high-quality controllable synthesis results. However, the utilization of text for diverse music style transfer poses significant challenges, primarily due to the limited availability of matched audio-text datasets. Music, being an abstract and complex art form, exhibits variations and intricacies even within the same genre, thereby making accurate textual descriptions challenging. This paper presents a music style transfer approach that effectively captures musical attributes using minimal data. We introduce a novel time-varying textual inversion module to precisely capture mel-spectrogram features at different levels. During inference, we propose a bias-reduced stylization technique to obtain stable results. Experimental results demonstrate that our method can transfer the style of specific instruments, as well as incorporate natural sounds to compose melodies. Samples and source code are available at https://lsfhuihuiff.github.io/MusicTI/.
PDF111February 8, 2026