MusicLDM: Mejorando la novedad en la generación de música a partir de texto mediante estrategias de mezcla sincronizada con el ritmo
MusicLDM: Enhancing Novelty in Text-to-Music Generation Using Beat-Synchronous Mixup Strategies
August 3, 2023
Autores: Ke Chen, Yusong Wu, Haohe Liu, Marianna Nezhurina, Taylor Berg-Kirkpatrick, Shlomo Dubnov
cs.AI
Resumen
Los modelos de difusión han mostrado resultados prometedores en tareas de generación multimodal, incluyendo la generación de texto a imagen y texto a audio. Sin embargo, generar música, como un tipo especial de audio, presenta desafíos únicos debido a la disponibilidad limitada de datos musicales y a cuestiones sensibles relacionadas con los derechos de autor y el plagio. En este artículo, para abordar estos desafíos, primero construimos un modelo de texto a música de última generación, MusicLDM, que adapta las arquitecturas de Stable Diffusion y AudioLDM al dominio musical. Logramos esto reentrenando el modelo de preentrenamiento de lenguaje-audio contrastivo (CLAP) y el vocoder Hifi-GAN, como componentes de MusicLDM, en una colección de muestras de datos musicales. Luego, para abordar las limitaciones de los datos de entrenamiento y evitar el plagio, aprovechamos un modelo de seguimiento de ritmo y proponemos dos estrategias diferentes de mezcla para la ampliación de datos: mezcla de audio sincronizada con el ritmo y mezcla latente sincronizada con el ritmo, que recombinan el audio de entrenamiento directamente o a través de un espacio de incrustaciones latentes, respectivamente. Estas estrategias de mezcla fomentan que el modelo interpole entre muestras musicales de entrenamiento y genere nueva música dentro del casco convexo de los datos de entrenamiento, haciendo que la música generada sea más diversa mientras se mantiene fiel al estilo correspondiente. Además de las métricas de evaluación populares, diseñamos varias nuevas métricas de evaluación basadas en la puntuación CLAP para demostrar que nuestro MusicLDM propuesto y las estrategias de mezcla sincronizada con el ritmo mejoran tanto la calidad como la novedad de la música generada, así como la correspondencia entre el texto de entrada y la música generada.
English
Diffusion models have shown promising results in cross-modal generation
tasks, including text-to-image and text-to-audio generation. However,
generating music, as a special type of audio, presents unique challenges due to
limited availability of music data and sensitive issues related to copyright
and plagiarism. In this paper, to tackle these challenges, we first construct a
state-of-the-art text-to-music model, MusicLDM, that adapts Stable Diffusion
and AudioLDM architectures to the music domain. We achieve this by retraining
the contrastive language-audio pretraining model (CLAP) and the Hifi-GAN
vocoder, as components of MusicLDM, on a collection of music data samples.
Then, to address the limitations of training data and to avoid plagiarism, we
leverage a beat tracking model and propose two different mixup strategies for
data augmentation: beat-synchronous audio mixup and beat-synchronous latent
mixup, which recombine training audio directly or via a latent embeddings
space, respectively. Such mixup strategies encourage the model to interpolate
between musical training samples and generate new music within the convex hull
of the training data, making the generated music more diverse while still
staying faithful to the corresponding style. In addition to popular evaluation
metrics, we design several new evaluation metrics based on CLAP score to
demonstrate that our proposed MusicLDM and beat-synchronous mixup strategies
improve both the quality and novelty of generated music, as well as the
correspondence between input text and generated music.