MusicLDM: Het vergroten van nieuwigheid in tekst-naar-muziek generatie met behulp van beat-synchrone mixup strategieën

Samenvatting

Diffusiemodellen hebben veelbelovende resultaten laten zien in cross-modale generatietaken, waaronder tekst-naar-beeld en tekst-naar-audio generatie. Het genereren van muziek, als een speciaal type audio, brengt echter unieke uitdagingen met zich mee vanwege de beperkte beschikbaarheid van muziekdata en gevoelige kwesties gerelateerd aan auteursrecht en plagiaat. In dit artikel gaan we deze uitdagingen aan door eerst een state-of-the-art tekst-naar-muziek model, MusicLDM, te construeren dat de Stable Diffusion en AudioLDM architecturen aanpast aan het muziekdomein. We bereiken dit door het contrastieve taal-audio vooraf getrainde model (CLAP) en de Hifi-GAN vocoder, als onderdelen van MusicLDM, opnieuw te trainen op een verzameling muziekdatamonsters. Vervolgens pakken we de beperkingen van de trainingsdata aan en vermijden we plagiaat door gebruik te maken van een beat tracking model en stellen we twee verschillende mixup strategieën voor data-augmentatie voor: beat-synchrone audio mixup en beat-synchrone latente mixup, die trainingsaudio rechtstreeks of via een latente embeddings ruimte hercombineren. Dergelijke mixup strategieën moedigen het model aan om te interpoleren tussen muzikale trainingsmonsters en nieuwe muziek te genereren binnen het convexe omhulsel van de trainingsdata, waardoor de gegenereerde muziek diverser wordt terwijl het nog steeds trouw blijft aan de corresponderende stijl. Naast populaire evaluatiemetrics ontwerpen we verschillende nieuwe evaluatiemetrics op basis van de CLAP-score om aan te tonen dat onze voorgestelde MusicLDM en beat-synchrone mixup strategieën zowel de kwaliteit als de nieuwigheid van de gegenereerde muziek verbeteren, evenals de correspondentie tussen invoertekst en gegenereerde muziek.

English

Diffusion models have shown promising results in cross-modal generation tasks, including text-to-image and text-to-audio generation. However, generating music, as a special type of audio, presents unique challenges due to limited availability of music data and sensitive issues related to copyright and plagiarism. In this paper, to tackle these challenges, we first construct a state-of-the-art text-to-music model, MusicLDM, that adapts Stable Diffusion and AudioLDM architectures to the music domain. We achieve this by retraining the contrastive language-audio pretraining model (CLAP) and the Hifi-GAN vocoder, as components of MusicLDM, on a collection of music data samples. Then, to address the limitations of training data and to avoid plagiarism, we leverage a beat tracking model and propose two different mixup strategies for data augmentation: beat-synchronous audio mixup and beat-synchronous latent mixup, which recombine training audio directly or via a latent embeddings space, respectively. Such mixup strategies encourage the model to interpolate between musical training samples and generate new music within the convex hull of the training data, making the generated music more diverse while still staying faithful to the corresponding style. In addition to popular evaluation metrics, we design several new evaluation metrics based on CLAP score to demonstrate that our proposed MusicLDM and beat-synchronous mixup strategies improve both the quality and novelty of generated music, as well as the correspondence between input text and generated music.

MusicLDM: Het vergroten van nieuwigheid in tekst-naar-muziek generatie met behulp van beat-synchrone mixup strategieën

MusicLDM: Enhancing Novelty in Text-to-Music Generation Using Beat-Synchronous Mixup Strategies

Samenvatting

Support