LP-MusicCaps : Génération pseudo-automatique de descriptions musicales basée sur des modèles de langage
LP-MusicCaps: LLM-Based Pseudo Music Captioning
July 31, 2023
Auteurs: SeungHeon Doh, Keunwoo Choi, Jongpil Lee, Juhan Nam
cs.AI
Résumé
La génération automatique de descriptions musicales, qui produit des descriptions en langage naturel pour des morceaux de musique donnés, présente un potentiel significatif pour améliorer la compréhension et l'organisation de grands volumes de données musicales. Malgré son importance, les chercheurs rencontrent des défis liés au processus coûteux et chronologique de collecte des jeux de données existants associant musique et langage, qui sont de taille limitée. Pour résoudre ce problème de pénurie de données, nous proposons d'utiliser des modèles de langage de grande taille (LLMs) pour générer artificiellement des phrases descriptives à partir de jeux de données d'étiquettes à grande échelle. Cela aboutit à environ 2,2 millions de descriptions associées à 0,5 millions d'extraits audio. Nous nommons cet ensemble de données Large Language Model based Pseudo music caption dataset, ou en abrégé, LP-MusicCaps. Nous réalisons une évaluation systématique de ce jeu de données à grande échelle en utilisant diverses métriques d'évaluation quantitatives issues du domaine du traitement du langage naturel ainsi qu'une évaluation humaine. Par ailleurs, nous avons entraîné un modèle de génération de descriptions musicales basé sur des transformers avec ce jeu de données et l'avons évalué dans des configurations de zéro-shot et d'apprentissage par transfert. Les résultats démontrent que notre approche proposée surpasse le modèle de référence supervisé.
English
Automatic music captioning, which generates natural language descriptions for
given music tracks, holds significant potential for enhancing the understanding
and organization of large volumes of musical data. Despite its importance,
researchers face challenges due to the costly and time-consuming collection
process of existing music-language datasets, which are limited in size. To
address this data scarcity issue, we propose the use of large language models
(LLMs) to artificially generate the description sentences from large-scale tag
datasets. This results in approximately 2.2M captions paired with 0.5M audio
clips. We term it Large Language Model based Pseudo music caption dataset,
shortly, LP-MusicCaps. We conduct a systemic evaluation of the large-scale
music captioning dataset with various quantitative evaluation metrics used in
the field of natural language processing as well as human evaluation. In
addition, we trained a transformer-based music captioning model with the
dataset and evaluated it under zero-shot and transfer-learning settings. The
results demonstrate that our proposed approach outperforms the supervised
baseline model.