Transferência de Estilo Musical com Inversão Variável no Tempo de Modelos de Difusão
Music Style Transfer with Time-Varying Inversion of Diffusion Models
February 21, 2024
Autores: Sifei Li, Yuxin Zhang, Fan Tang, Chongyang Ma, Weiming dong, Changsheng Xu
cs.AI
Resumo
Com o desenvolvimento dos modelos de difusão, a transferência de estilo de imagem guiada por texto demonstrou resultados de síntese controlada de alta qualidade. No entanto, a utilização de texto para a transferência de estilo musical diversa apresenta desafios significativos, principalmente devido à disponibilidade limitada de conjuntos de dados de áudio-texto correspondentes. A música, sendo uma forma de arte abstrata e complexa, exibe variações e nuances mesmo dentro do mesmo gênero, tornando descrições textuais precisas desafiadoras. Este artigo apresenta uma abordagem de transferência de estilo musical que efetivamente captura atributos musicais utilizando dados mínimos. Introduzimos um novo módulo de inversão textual variável no tempo para capturar com precisão características de mel-espectrogramas em diferentes níveis. Durante a inferência, propomos uma técnica de estilização com redução de viés para obter resultados estáveis. Os resultados experimentais demonstram que nosso método pode transferir o estilo de instrumentos específicos, bem como incorporar sons naturais para compor melodias. Amostras e código-fonte estão disponíveis em https://lsfhuihuiff.github.io/MusicTI/.
English
With the development of diffusion models, text-guided image style transfer
has demonstrated high-quality controllable synthesis results. However, the
utilization of text for diverse music style transfer poses significant
challenges, primarily due to the limited availability of matched audio-text
datasets. Music, being an abstract and complex art form, exhibits variations
and intricacies even within the same genre, thereby making accurate textual
descriptions challenging. This paper presents a music style transfer approach
that effectively captures musical attributes using minimal data. We introduce a
novel time-varying textual inversion module to precisely capture
mel-spectrogram features at different levels. During inference, we propose a
bias-reduced stylization technique to obtain stable results. Experimental
results demonstrate that our method can transfer the style of specific
instruments, as well as incorporate natural sounds to compose melodies. Samples
and source code are available at https://lsfhuihuiff.github.io/MusicTI/.