MusicLDM: Aprimorando a Novidade na Geração de Música a partir de Texto Usando Estratégias de Mixup Sincronizadas com a Batida

Resumo

Modelos de difusão têm demonstrado resultados promissores em tarefas de geração multimodal, incluindo geração de texto para imagem e texto para áudio. No entanto, a geração de música, como um tipo especial de áudio, apresenta desafios únicos devido à disponibilidade limitada de dados musicais e questões sensíveis relacionadas a direitos autorais e plágio. Neste artigo, para enfrentar esses desafios, primeiro construímos um modelo de última geração para geração de música a partir de texto, o MusicLDM, que adapta as arquiteturas do Stable Diffusion e do AudioLDM ao domínio musical. Isso é alcançado ao retreinar o modelo de pré-treinamento contrastivo de linguagem e áudio (CLAP) e o vocoder Hifi-GAN, como componentes do MusicLDM, em uma coleção de amostras de dados musicais. Em seguida, para lidar com as limitações dos dados de treinamento e evitar plágio, utilizamos um modelo de rastreamento de batidas e propomos duas estratégias diferentes de mixup para aumento de dados: mixup de áudio síncrono à batida e mixup latente síncrono à batida, que recombinam o áudio de treinamento diretamente ou por meio de um espaço de embeddings latentes, respectivamente. Essas estratégias de mixup incentivam o modelo a interpolar entre amostras musicais de treinamento e gerar novas músicas dentro do casco convexo dos dados de treinamento, tornando a música gerada mais diversificada, mas ainda fiel ao estilo correspondente. Além das métricas de avaliação populares, projetamos várias novas métricas de avaliação baseadas na pontuação CLAP para demonstrar que nosso MusicLDM proposto e as estratégias de mixup síncrono à batida melhoram tanto a qualidade quanto a novidade da música gerada, bem como a correspondência entre o texto de entrada e a música gerada.

English

Diffusion models have shown promising results in cross-modal generation tasks, including text-to-image and text-to-audio generation. However, generating music, as a special type of audio, presents unique challenges due to limited availability of music data and sensitive issues related to copyright and plagiarism. In this paper, to tackle these challenges, we first construct a state-of-the-art text-to-music model, MusicLDM, that adapts Stable Diffusion and AudioLDM architectures to the music domain. We achieve this by retraining the contrastive language-audio pretraining model (CLAP) and the Hifi-GAN vocoder, as components of MusicLDM, on a collection of music data samples. Then, to address the limitations of training data and to avoid plagiarism, we leverage a beat tracking model and propose two different mixup strategies for data augmentation: beat-synchronous audio mixup and beat-synchronous latent mixup, which recombine training audio directly or via a latent embeddings space, respectively. Such mixup strategies encourage the model to interpolate between musical training samples and generate new music within the convex hull of the training data, making the generated music more diverse while still staying faithful to the corresponding style. In addition to popular evaluation metrics, we design several new evaluation metrics based on CLAP score to demonstrate that our proposed MusicLDM and beat-synchronous mixup strategies improve both the quality and novelty of generated music, as well as the correspondence between input text and generated music.

MusicLDM: Aprimorando a Novidade na Geração de Música a partir de Texto Usando Estratégias de Mixup Sincronizadas com a Batida

MusicLDM: Enhancing Novelty in Text-to-Music Generation Using Beat-Synchronous Mixup Strategies

Resumo

Support