MusicLDM: Aprimorando a Novidade na Geração de Música a partir de Texto Usando Estratégias de Mixup Sincronizadas com a Batida
MusicLDM: Enhancing Novelty in Text-to-Music Generation Using Beat-Synchronous Mixup Strategies
August 3, 2023
Autores: Ke Chen, Yusong Wu, Haohe Liu, Marianna Nezhurina, Taylor Berg-Kirkpatrick, Shlomo Dubnov
cs.AI
Resumo
Modelos de difusão têm demonstrado resultados promissores em tarefas de geração multimodal, incluindo geração de texto para imagem e texto para áudio. No entanto, a geração de música, como um tipo especial de áudio, apresenta desafios únicos devido à disponibilidade limitada de dados musicais e questões sensíveis relacionadas a direitos autorais e plágio. Neste artigo, para enfrentar esses desafios, primeiro construímos um modelo de última geração para geração de música a partir de texto, o MusicLDM, que adapta as arquiteturas do Stable Diffusion e do AudioLDM ao domínio musical. Isso é alcançado ao retreinar o modelo de pré-treinamento contrastivo de linguagem e áudio (CLAP) e o vocoder Hifi-GAN, como componentes do MusicLDM, em uma coleção de amostras de dados musicais. Em seguida, para lidar com as limitações dos dados de treinamento e evitar plágio, utilizamos um modelo de rastreamento de batidas e propomos duas estratégias diferentes de mixup para aumento de dados: mixup de áudio síncrono à batida e mixup latente síncrono à batida, que recombinam o áudio de treinamento diretamente ou por meio de um espaço de embeddings latentes, respectivamente. Essas estratégias de mixup incentivam o modelo a interpolar entre amostras musicais de treinamento e gerar novas músicas dentro do casco convexo dos dados de treinamento, tornando a música gerada mais diversificada, mas ainda fiel ao estilo correspondente. Além das métricas de avaliação populares, projetamos várias novas métricas de avaliação baseadas na pontuação CLAP para demonstrar que nosso MusicLDM proposto e as estratégias de mixup síncrono à batida melhoram tanto a qualidade quanto a novidade da música gerada, bem como a correspondência entre o texto de entrada e a música gerada.
English
Diffusion models have shown promising results in cross-modal generation
tasks, including text-to-image and text-to-audio generation. However,
generating music, as a special type of audio, presents unique challenges due to
limited availability of music data and sensitive issues related to copyright
and plagiarism. In this paper, to tackle these challenges, we first construct a
state-of-the-art text-to-music model, MusicLDM, that adapts Stable Diffusion
and AudioLDM architectures to the music domain. We achieve this by retraining
the contrastive language-audio pretraining model (CLAP) and the Hifi-GAN
vocoder, as components of MusicLDM, on a collection of music data samples.
Then, to address the limitations of training data and to avoid plagiarism, we
leverage a beat tracking model and propose two different mixup strategies for
data augmentation: beat-synchronous audio mixup and beat-synchronous latent
mixup, which recombine training audio directly or via a latent embeddings
space, respectively. Such mixup strategies encourage the model to interpolate
between musical training samples and generate new music within the convex hull
of the training data, making the generated music more diverse while still
staying faithful to the corresponding style. In addition to popular evaluation
metrics, we design several new evaluation metrics based on CLAP score to
demonstrate that our proposed MusicLDM and beat-synchronous mixup strategies
improve both the quality and novelty of generated music, as well as the
correspondence between input text and generated music.