ChatPaper.aiChatPaper

LP-MusicCaps: LLM-basierte Pseudomusikbeschreibung

LP-MusicCaps: LLM-Based Pseudo Music Captioning

July 31, 2023
Autoren: SeungHeon Doh, Keunwoo Choi, Jongpil Lee, Juhan Nam
cs.AI

Zusammenfassung

Die automatische Musikkommentierung, die natürliche Sprachbeschreibungen für gegebene Musiktitel erzeugt, birgt ein erhebliches Potenzial, das Verständnis und die Organisation großer Mengen musikalischer Daten zu verbessern. Trotz ihrer Bedeutung stehen Forscher vor Herausforderungen aufgrund des kostspieligen und zeitaufwändigen Erfassungsprozesses bestehender Musik-Sprach-Datensätze, die in ihrer Größe begrenzt sind. Um dieses Problem der Datenknappheit zu lösen, schlagen wir die Verwendung großer Sprachmodelle (LLMs) vor, um Beschreibungssätze künstlich aus groß angelegten Tag-Datensätzen zu generieren. Dies führt zu etwa 2,2 Millionen Beschreibungen, die mit 0,5 Millionen Audioclips verknüpft sind. Wir bezeichnen dies als Large Language Model based Pseudo music caption dataset, kurz LP-MusicCaps. Wir führen eine systematische Bewertung des groß angelegten Musikkommentierungs-Datensatzes mit verschiedenen quantitativen Bewertungsmetriken durch, die im Bereich der natürlichen Sprachverarbeitung verwendet werden, sowie mit einer menschlichen Bewertung. Darüber hinaus haben wir ein Transformer-basiertes Musikkommentierungsmodell mit dem Datensatz trainiert und es unter Zero-Shot- und Transfer-Learning-Bedingungen evaluiert. Die Ergebnisse zeigen, dass unser vorgeschlagener Ansatz das überwachte Baseline-Modell übertrifft.
English
Automatic music captioning, which generates natural language descriptions for given music tracks, holds significant potential for enhancing the understanding and organization of large volumes of musical data. Despite its importance, researchers face challenges due to the costly and time-consuming collection process of existing music-language datasets, which are limited in size. To address this data scarcity issue, we propose the use of large language models (LLMs) to artificially generate the description sentences from large-scale tag datasets. This results in approximately 2.2M captions paired with 0.5M audio clips. We term it Large Language Model based Pseudo music caption dataset, shortly, LP-MusicCaps. We conduct a systemic evaluation of the large-scale music captioning dataset with various quantitative evaluation metrics used in the field of natural language processing as well as human evaluation. In addition, we trained a transformer-based music captioning model with the dataset and evaluated it under zero-shot and transfer-learning settings. The results demonstrate that our proposed approach outperforms the supervised baseline model.
PDF381December 15, 2024