ChatPaper.aiChatPaper

LP-MusicCaps: Generación de Subtítulos Pseudo-Musicales Basada en LLM

LP-MusicCaps: LLM-Based Pseudo Music Captioning

July 31, 2023
Autores: SeungHeon Doh, Keunwoo Choi, Jongpil Lee, Juhan Nam
cs.AI

Resumen

La generación automática de descripciones musicales, que produce descripciones en lenguaje natural para pistas musicales dadas, tiene un potencial significativo para mejorar la comprensión y organización de grandes volúmenes de datos musicales. A pesar de su importancia, los investigadores enfrentan desafíos debido al proceso costoso y lento de recopilación de los conjuntos de datos existentes que relacionan música y lenguaje, los cuales son limitados en tamaño. Para abordar este problema de escasez de datos, proponemos el uso de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para generar artificialmente oraciones descriptivas a partir de conjuntos de datos de etiquetas a gran escala. Esto resulta en aproximadamente 2.2 millones de descripciones emparejadas con 0.5 millones de clips de audio. Denominamos a este conjunto de datos como LP-MusicCaps, abreviatura de Large Language Model based Pseudo music caption dataset. Realizamos una evaluación sistemática de este conjunto de datos a gran escala utilizando diversas métricas cuantitativas empleadas en el campo del procesamiento del lenguaje natural, así como evaluaciones humanas. Además, entrenamos un modelo de generación de descripciones musicales basado en transformers con este conjunto de datos y lo evaluamos en configuraciones de aprendizaje cero y transferencia de aprendizaje. Los resultados demuestran que nuestro enfoque propuesto supera al modelo de referencia supervisado.
English
Automatic music captioning, which generates natural language descriptions for given music tracks, holds significant potential for enhancing the understanding and organization of large volumes of musical data. Despite its importance, researchers face challenges due to the costly and time-consuming collection process of existing music-language datasets, which are limited in size. To address this data scarcity issue, we propose the use of large language models (LLMs) to artificially generate the description sentences from large-scale tag datasets. This results in approximately 2.2M captions paired with 0.5M audio clips. We term it Large Language Model based Pseudo music caption dataset, shortly, LP-MusicCaps. We conduct a systemic evaluation of the large-scale music captioning dataset with various quantitative evaluation metrics used in the field of natural language processing as well as human evaluation. In addition, we trained a transformer-based music captioning model with the dataset and evaluated it under zero-shot and transfer-learning settings. The results demonstrate that our proposed approach outperforms the supervised baseline model.
PDF381December 15, 2024