LP-MusicCaps: LLM-gebaseerde Pseudo Muziekbeschrijving
LP-MusicCaps: LLM-Based Pseudo Music Captioning
July 31, 2023
Auteurs: SeungHeon Doh, Keunwoo Choi, Jongpil Lee, Juhan Nam
cs.AI
Samenvatting
Automatische muziekbeschrijving, waarbij natuurlijke taal beschrijvingen worden gegenereerd voor gegeven muzieknummers, heeft aanzienlijk potentieel om het begrip en de organisatie van grote hoeveelheden muziekdata te verbeteren. Ondanks het belang ervan, staan onderzoekers voor uitdagingen vanwege de kostbare en tijdrovende verzamelingsprocessen van bestaande muziek-taal datasets, die beperkt zijn in omvang. Om dit probleem van dataschaarste aan te pakken, stellen we het gebruik van grote taalmodellen (LLMs) voor om kunstmatig beschrijvingszinnen te genereren uit grootschalige tag-datasets. Dit resulteert in ongeveer 2,2 miljoen bijschriften gepaard met 0,5 miljoen audioclips. We noemen dit het Large Language Model based Pseudo music caption dataset, kortweg LP-MusicCaps. We voeren een systematische evaluatie uit van de grootschalige muziekbeschrijvingsdataset met verschillende kwantitatieve evaluatiemethoden die worden gebruikt in het veld van natuurlijke taalverwerking, evenals menselijke evaluatie. Daarnaast hebben we een transformer-gebaseerd muziekbeschrijvingsmodel getraind met de dataset en geëvalueerd onder zero-shot en transfer-learning instellingen. De resultaten tonen aan dat onze voorgestelde aanpak het gesuperviseerde basislijnmodel overtreft.
English
Automatic music captioning, which generates natural language descriptions for
given music tracks, holds significant potential for enhancing the understanding
and organization of large volumes of musical data. Despite its importance,
researchers face challenges due to the costly and time-consuming collection
process of existing music-language datasets, which are limited in size. To
address this data scarcity issue, we propose the use of large language models
(LLMs) to artificially generate the description sentences from large-scale tag
datasets. This results in approximately 2.2M captions paired with 0.5M audio
clips. We term it Large Language Model based Pseudo music caption dataset,
shortly, LP-MusicCaps. We conduct a systemic evaluation of the large-scale
music captioning dataset with various quantitative evaluation metrics used in
the field of natural language processing as well as human evaluation. In
addition, we trained a transformer-based music captioning model with the
dataset and evaluated it under zero-shot and transfer-learning settings. The
results demonstrate that our proposed approach outperforms the supervised
baseline model.