MusicLDM : Amélioration de la nouveauté dans la génération de musique à partir de texte grâce à des stratégies de mixage synchronisées sur le tempo
MusicLDM: Enhancing Novelty in Text-to-Music Generation Using Beat-Synchronous Mixup Strategies
August 3, 2023
Auteurs: Ke Chen, Yusong Wu, Haohe Liu, Marianna Nezhurina, Taylor Berg-Kirkpatrick, Shlomo Dubnov
cs.AI
Résumé
Les modèles de diffusion ont montré des résultats prometteurs dans les tâches de génération intermodale, notamment la génération de texte à image et de texte à audio. Cependant, la génération de musique, en tant que type particulier d'audio, présente des défis uniques en raison de la disponibilité limitée des données musicales et des questions sensibles liées au droit d'auteur et au plagiat. Dans cet article, pour relever ces défis, nous construisons d'abord un modèle de pointe de génération de texte à musique, MusicLDM, qui adapte les architectures de Stable Diffusion et AudioLDM au domaine musical. Nous y parvenons en réentraînant le modèle de pré-entraînement contrastif langage-audio (CLAP) et le vocodeur Hifi-GAN, en tant que composants de MusicLDM, sur un ensemble d'échantillons de données musicales. Ensuite, pour pallier les limitations des données d'entraînement et éviter le plagiat, nous exploitons un modèle de suivi de tempo et proposons deux stratégies différentes de mixup pour l'augmentation des données : le mixup audio synchrone au tempo et le mixup latent synchrone au tempo, qui recombinent les audios d'entraînement directement ou via un espace d'embeddings latents, respectivement. Ces stratégies de mixup encouragent le modèle à interpoler entre les échantillons musicaux d'entraînement et à générer de nouvelles musiques dans l'enveloppe convexe des données d'entraînement, rendant la musique générée plus diversifiée tout en restant fidèle au style correspondant. En plus des métriques d'évaluation populaires, nous concevons plusieurs nouvelles métriques d'évaluation basées sur le score CLAP pour démontrer que notre MusicLDM proposé et les stratégies de mixup synchrones au tempo améliorent à la fois la qualité et la nouveauté de la musique générée, ainsi que la correspondance entre le texte d'entrée et la musique générée.
English
Diffusion models have shown promising results in cross-modal generation
tasks, including text-to-image and text-to-audio generation. However,
generating music, as a special type of audio, presents unique challenges due to
limited availability of music data and sensitive issues related to copyright
and plagiarism. In this paper, to tackle these challenges, we first construct a
state-of-the-art text-to-music model, MusicLDM, that adapts Stable Diffusion
and AudioLDM architectures to the music domain. We achieve this by retraining
the contrastive language-audio pretraining model (CLAP) and the Hifi-GAN
vocoder, as components of MusicLDM, on a collection of music data samples.
Then, to address the limitations of training data and to avoid plagiarism, we
leverage a beat tracking model and propose two different mixup strategies for
data augmentation: beat-synchronous audio mixup and beat-synchronous latent
mixup, which recombine training audio directly or via a latent embeddings
space, respectively. Such mixup strategies encourage the model to interpolate
between musical training samples and generate new music within the convex hull
of the training data, making the generated music more diverse while still
staying faithful to the corresponding style. In addition to popular evaluation
metrics, we design several new evaluation metrics based on CLAP score to
demonstrate that our proposed MusicLDM and beat-synchronous mixup strategies
improve both the quality and novelty of generated music, as well as the
correspondence between input text and generated music.