LP-MusicCaps: Generazione Pseudo-Didascalica Musicale Basata su LLM
LP-MusicCaps: LLM-Based Pseudo Music Captioning
July 31, 2023
Autori: SeungHeon Doh, Keunwoo Choi, Jongpil Lee, Juhan Nam
cs.AI
Abstract
La descrizione automatica della musica, che genera descrizioni in linguaggio naturale per brani musicali specifici, ha un potenziale significativo per migliorare la comprensione e l'organizzazione di grandi volumi di dati musicali. Nonostante la sua importanza, i ricercatori affrontano sfide dovute al processo costoso e dispendioso in termini di tempo di raccolta dei dataset esistenti musica-linguaggio, che sono limitati in dimensioni. Per affrontare questa carenza di dati, proponiamo l'uso di modelli linguistici di grandi dimensioni (LLM) per generare artificialmente frasi descrittive a partire da dataset di tag su larga scala. Ciò si traduce in circa 2,2 milioni di descrizioni abbinate a 0,5 milioni di clip audio. Lo definiamo Large Language Model based Pseudo music caption dataset, abbreviato in LP-MusicCaps. Abbiamo condotto una valutazione sistematica del dataset su larga scala per la descrizione musicale utilizzando varie metriche di valutazione quantitative impiegate nel campo dell'elaborazione del linguaggio naturale, nonché una valutazione umana. Inoltre, abbiamo addestrato un modello di descrizione musicale basato su transformer con il dataset e lo abbiamo valutato in contesti di zero-shot e transfer learning. I risultati dimostrano che il nostro approccio proposto supera il modello baseline supervisionato.
English
Automatic music captioning, which generates natural language descriptions for
given music tracks, holds significant potential for enhancing the understanding
and organization of large volumes of musical data. Despite its importance,
researchers face challenges due to the costly and time-consuming collection
process of existing music-language datasets, which are limited in size. To
address this data scarcity issue, we propose the use of large language models
(LLMs) to artificially generate the description sentences from large-scale tag
datasets. This results in approximately 2.2M captions paired with 0.5M audio
clips. We term it Large Language Model based Pseudo music caption dataset,
shortly, LP-MusicCaps. We conduct a systemic evaluation of the large-scale
music captioning dataset with various quantitative evaluation metrics used in
the field of natural language processing as well as human evaluation. In
addition, we trained a transformer-based music captioning model with the
dataset and evaluated it under zero-shot and transfer-learning settings. The
results demonstrate that our proposed approach outperforms the supervised
baseline model.