MusicLDM: Migliorare la Novità nella Generazione di Musica da Testo Utilizzando Strategie di Mixup Sincronizzate al Beat
MusicLDM: Enhancing Novelty in Text-to-Music Generation Using Beat-Synchronous Mixup Strategies
August 3, 2023
Autori: Ke Chen, Yusong Wu, Haohe Liu, Marianna Nezhurina, Taylor Berg-Kirkpatrick, Shlomo Dubnov
cs.AI
Abstract
I modelli di diffusione hanno mostrato risultati promettenti nei compiti di generazione cross-modale, inclusa la generazione da testo a immagine e da testo ad audio. Tuttavia, la generazione di musica, come tipo speciale di audio, presenta sfide uniche a causa della limitata disponibilità di dati musicali e di questioni sensibili legate al copyright e al plagio. In questo articolo, per affrontare queste sfide, costruiamo innanzitutto un modello all'avanguardia per la generazione da testo a musica, MusicLDM, che adatta le architetture di Stable Diffusion e AudioLDM al dominio musicale. Raggiungiamo questo obiettivo riaddestrando il modello di pre-addestramento contrastivo linguaggio-audio (CLAP) e il vocoder Hifi-GAN, come componenti di MusicLDM, su una raccolta di campioni di dati musicali. Successivamente, per affrontare le limitazioni dei dati di addestramento e per evitare il plagio, sfruttiamo un modello di tracciamento del beat e proponiamo due diverse strategie di mixup per l'aumentazione dei dati: mixup audio sincrono al beat e mixup latente sincrono al beat, che ricombinano l'audio di addestramento direttamente o tramite uno spazio di embedding latenti, rispettivamente. Tali strategie di mixup incoraggiano il modello a interpolare tra i campioni musicali di addestramento e a generare nuova musica all'interno dell'inviluppo convesso dei dati di addestramento, rendendo la musica generata più diversificata pur rimanendo fedele allo stile corrispondente. Oltre alle metriche di valutazione popolari, progettiamo diverse nuove metriche di valutazione basate sul punteggio CLAP per dimostrare che il nostro MusicLDM proposto e le strategie di mixup sincrono al beat migliorano sia la qualità che la novità della musica generata, nonché la corrispondenza tra il testo di input e la musica generata.
English
Diffusion models have shown promising results in cross-modal generation
tasks, including text-to-image and text-to-audio generation. However,
generating music, as a special type of audio, presents unique challenges due to
limited availability of music data and sensitive issues related to copyright
and plagiarism. In this paper, to tackle these challenges, we first construct a
state-of-the-art text-to-music model, MusicLDM, that adapts Stable Diffusion
and AudioLDM architectures to the music domain. We achieve this by retraining
the contrastive language-audio pretraining model (CLAP) and the Hifi-GAN
vocoder, as components of MusicLDM, on a collection of music data samples.
Then, to address the limitations of training data and to avoid plagiarism, we
leverage a beat tracking model and propose two different mixup strategies for
data augmentation: beat-synchronous audio mixup and beat-synchronous latent
mixup, which recombine training audio directly or via a latent embeddings
space, respectively. Such mixup strategies encourage the model to interpolate
between musical training samples and generate new music within the convex hull
of the training data, making the generated music more diverse while still
staying faithful to the corresponding style. In addition to popular evaluation
metrics, we design several new evaluation metrics based on CLAP score to
demonstrate that our proposed MusicLDM and beat-synchronous mixup strategies
improve both the quality and novelty of generated music, as well as the
correspondence between input text and generated music.