LP-MusicCaps: Псевдогенерация музыкальных описаний на основе языковых моделей
LP-MusicCaps: LLM-Based Pseudo Music Captioning
July 31, 2023
Авторы: SeungHeon Doh, Keunwoo Choi, Jongpil Lee, Juhan Nam
cs.AI
Аннотация
Автоматическое создание описаний музыки, которое генерирует естественно-языковые описания для заданных музыкальных треков, обладает значительным потенциалом для улучшения понимания и организации больших объемов музыкальных данных. Несмотря на свою важность, исследователи сталкиваются с трудностями из-за дорогостоящего и трудоемкого процесса сбора существующих наборов данных, связывающих музыку и язык, которые ограничены по объему. Для решения проблемы нехватки данных мы предлагаем использование крупных языковых моделей (LLM) для искусственного создания описательных предложений на основе крупномасштабных наборов тегов. В результате получается примерно 2,2 миллиона описаний, сопоставленных с 0,5 миллиона аудиоклипов. Мы называем этот набор данных Псевдо-описания музыки на основе крупных языковых моделей, сокращенно LP-MusicCaps. Мы проводим систематическую оценку крупномасштабного набора данных для создания описаний музыки с использованием различных количественных метрик, применяемых в области обработки естественного языка, а также с привлечением экспертной оценки. Кроме того, мы обучили трансформерную модель для создания описаний музыки на этом наборе данных и оценили её в условиях zero-shot и трансферного обучения. Результаты показывают, что наш предложенный подход превосходит базовую модель, обученную с учителем.
English
Automatic music captioning, which generates natural language descriptions for
given music tracks, holds significant potential for enhancing the understanding
and organization of large volumes of musical data. Despite its importance,
researchers face challenges due to the costly and time-consuming collection
process of existing music-language datasets, which are limited in size. To
address this data scarcity issue, we propose the use of large language models
(LLMs) to artificially generate the description sentences from large-scale tag
datasets. This results in approximately 2.2M captions paired with 0.5M audio
clips. We term it Large Language Model based Pseudo music caption dataset,
shortly, LP-MusicCaps. We conduct a systemic evaluation of the large-scale
music captioning dataset with various quantitative evaluation metrics used in
the field of natural language processing as well as human evaluation. In
addition, we trained a transformer-based music captioning model with the
dataset and evaluated it under zero-shot and transfer-learning settings. The
results demonstrate that our proposed approach outperforms the supervised
baseline model.