LP-MusicCaps: Legendagem Pseudo-Musical Baseada em LLM

Resumo

A geração automática de legendas para música, que cria descrições em linguagem natural para faixas musicais dadas, possui um potencial significativo para aprimorar a compreensão e organização de grandes volumes de dados musicais. Apesar de sua importância, os pesquisadores enfrentam desafios devido ao processo caro e demorado de coleta dos conjuntos de dados música-linguagem existentes, que são limitados em tamanho. Para abordar essa escassez de dados, propomos o uso de modelos de linguagem de grande escala (LLMs) para gerar artificialmente frases descritivas a partir de conjuntos de dados de tags em larga escala. Isso resulta em aproximadamente 2,2 milhões de legendas pareadas com 0,5 milhões de clipes de áudio. Denominamos esse conjunto de dados como LP-MusicCaps, abreviação de Large Language Model based Pseudo music caption dataset. Realizamos uma avaliação sistemática do conjunto de dados de legendas musicais em larga escala com várias métricas de avaliação quantitativa usadas no campo de processamento de linguagem natural, bem como avaliação humana. Além disso, treinamos um modelo de geração de legendas musicais baseado em transformers com o conjunto de dados e o avaliamos em configurações de zero-shot e aprendizado por transferência. Os resultados demonstram que nossa abordagem proposta supera o modelo de linha de base supervisionado.

English

Automatic music captioning, which generates natural language descriptions for given music tracks, holds significant potential for enhancing the understanding and organization of large volumes of musical data. Despite its importance, researchers face challenges due to the costly and time-consuming collection process of existing music-language datasets, which are limited in size. To address this data scarcity issue, we propose the use of large language models (LLMs) to artificially generate the description sentences from large-scale tag datasets. This results in approximately 2.2M captions paired with 0.5M audio clips. We term it Large Language Model based Pseudo music caption dataset, shortly, LP-MusicCaps. We conduct a systemic evaluation of the large-scale music captioning dataset with various quantitative evaluation metrics used in the field of natural language processing as well as human evaluation. In addition, we trained a transformer-based music captioning model with the dataset and evaluated it under zero-shot and transfer-learning settings. The results demonstrate that our proposed approach outperforms the supervised baseline model.

LP-MusicCaps: Legendagem Pseudo-Musical Baseada em LLM

LP-MusicCaps: LLM-Based Pseudo Music Captioning

Resumo

Support