Trasferimento dello Stile Musicale con Inversione Temporale dei Modelli di Diffusione

Abstract

Con lo sviluppo dei modelli di diffusione, il trasferimento di stile delle immagini guidato da testo ha dimostrato risultati di sintesi controllata di alta qualità. Tuttavia, l'utilizzo del testo per il trasferimento di stile musicale diversificato presenta sfide significative, principalmente a causa della limitata disponibilità di dataset audio-testo corrispondenti. La musica, essendo una forma d'arte astratta e complessa, presenta variazioni e complessità anche all'interno dello stesso genere, rendendo così difficile la descrizione testuale accurata. Questo articolo presenta un approccio al trasferimento di stile musicale che cattura efficacemente gli attributi musicali utilizzando dati minimi. Introduciamo un nuovo modulo di inversione testuale variabile nel tempo per catturare con precisione le caratteristiche dei mel-spettrogrammi a diversi livelli. Durante l'inferenza, proponiamo una tecnica di stilizzazione a riduzione di distorsione per ottenere risultati stabili. I risultati sperimentali dimostrano che il nostro metodo può trasferire lo stile di strumenti specifici, nonché incorporare suoni naturali per comporre melodie. Campioni e codice sorgente sono disponibili all'indirizzo https://lsfhuihuiff.github.io/MusicTI/.

English

With the development of diffusion models, text-guided image style transfer has demonstrated high-quality controllable synthesis results. However, the utilization of text for diverse music style transfer poses significant challenges, primarily due to the limited availability of matched audio-text datasets. Music, being an abstract and complex art form, exhibits variations and intricacies even within the same genre, thereby making accurate textual descriptions challenging. This paper presents a music style transfer approach that effectively captures musical attributes using minimal data. We introduce a novel time-varying textual inversion module to precisely capture mel-spectrogram features at different levels. During inference, we propose a bias-reduced stylization technique to obtain stable results. Experimental results demonstrate that our method can transfer the style of specific instruments, as well as incorporate natural sounds to compose melodies. Samples and source code are available at https://lsfhuihuiff.github.io/MusicTI/.

Trasferimento dello Stile Musicale con Inversione Temporale dei Modelli di Diffusione

Music Style Transfer with Time-Varying Inversion of Diffusion Models

Abstract

Support