MusicLDM : Amélioration de la nouveauté dans la génération de musique à partir de texte grâce à des stratégies de mixage synchronisées sur le tempo

Résumé

Les modèles de diffusion ont montré des résultats prometteurs dans les tâches de génération intermodale, notamment la génération de texte à image et de texte à audio. Cependant, la génération de musique, en tant que type particulier d'audio, présente des défis uniques en raison de la disponibilité limitée des données musicales et des questions sensibles liées au droit d'auteur et au plagiat. Dans cet article, pour relever ces défis, nous construisons d'abord un modèle de pointe de génération de texte à musique, MusicLDM, qui adapte les architectures de Stable Diffusion et AudioLDM au domaine musical. Nous y parvenons en réentraînant le modèle de pré-entraînement contrastif langage-audio (CLAP) et le vocodeur Hifi-GAN, en tant que composants de MusicLDM, sur un ensemble d'échantillons de données musicales. Ensuite, pour pallier les limitations des données d'entraînement et éviter le plagiat, nous exploitons un modèle de suivi de tempo et proposons deux stratégies différentes de mixup pour l'augmentation des données : le mixup audio synchrone au tempo et le mixup latent synchrone au tempo, qui recombinent les audios d'entraînement directement ou via un espace d'embeddings latents, respectivement. Ces stratégies de mixup encouragent le modèle à interpoler entre les échantillons musicaux d'entraînement et à générer de nouvelles musiques dans l'enveloppe convexe des données d'entraînement, rendant la musique générée plus diversifiée tout en restant fidèle au style correspondant. En plus des métriques d'évaluation populaires, nous concevons plusieurs nouvelles métriques d'évaluation basées sur le score CLAP pour démontrer que notre MusicLDM proposé et les stratégies de mixup synchrones au tempo améliorent à la fois la qualité et la nouveauté de la musique générée, ainsi que la correspondance entre le texte d'entrée et la musique générée.

English

Diffusion models have shown promising results in cross-modal generation tasks, including text-to-image and text-to-audio generation. However, generating music, as a special type of audio, presents unique challenges due to limited availability of music data and sensitive issues related to copyright and plagiarism. In this paper, to tackle these challenges, we first construct a state-of-the-art text-to-music model, MusicLDM, that adapts Stable Diffusion and AudioLDM architectures to the music domain. We achieve this by retraining the contrastive language-audio pretraining model (CLAP) and the Hifi-GAN vocoder, as components of MusicLDM, on a collection of music data samples. Then, to address the limitations of training data and to avoid plagiarism, we leverage a beat tracking model and propose two different mixup strategies for data augmentation: beat-synchronous audio mixup and beat-synchronous latent mixup, which recombine training audio directly or via a latent embeddings space, respectively. Such mixup strategies encourage the model to interpolate between musical training samples and generate new music within the convex hull of the training data, making the generated music more diverse while still staying faithful to the corresponding style. In addition to popular evaluation metrics, we design several new evaluation metrics based on CLAP score to demonstrate that our proposed MusicLDM and beat-synchronous mixup strategies improve both the quality and novelty of generated music, as well as the correspondence between input text and generated music.

MusicLDM : Amélioration de la nouveauté dans la génération de musique à partir de texte grâce à des stratégies de mixage synchronisées sur le tempo

MusicLDM: Enhancing Novelty in Text-to-Music Generation Using Beat-Synchronous Mixup Strategies

Résumé

Support