ChatPaper.aiChatPaper

Futga: Hacia la comprensión detallada de la música a través de la ampliación generativa temporalmente mejorada.

Futga: Towards Fine-grained Music Understanding through Temporally-enhanced Generative Augmentation

July 29, 2024
Autores: Junda Wu, Zachary Novack, Amit Namburi, Jiaheng Dai, Hao-Wen Dong, Zhouhang Xie, Carol Chen, Julian McAuley
cs.AI

Resumen

Los métodos existentes de subtitulado de música se limitan a generar descripciones globales concisas de clips de música cortos, lo que no logra capturar las características musicales detalladas y los cambios musicales conscientes del tiempo. Para abordar estas limitaciones, proponemos FUTGA, un modelo equipado con capacidades de comprensión musical detallada a través del aprendizaje de la generación de aumentos con composiciones temporales. Aprovechamos conjuntos de datos de subtitulado de música existentes y grandes modelos de lenguaje (LLMs) para sintetizar subtítulos de música detallados con descripciones estructurales y límites temporales para canciones completas. Potenciado por el conjunto de datos sintético propuesto, FUTGA es capaz de identificar los cambios temporales de la música en puntos de transición clave y sus funciones musicales, así como generar descripciones detalladas para cada segmento musical. Además, presentamos un conjunto de datos de subtitulado de música completo generado por FUTGA, como la ampliación de los conjuntos de datos MusicCaps y Song Describer. Evaluamos los subtítulos generados automáticamente en varias tareas secundarias, incluida la generación y recuperación de música. Los experimentos demuestran la calidad de los subtítulos generados y el mejor rendimiento en varias tareas secundarias logrado por el enfoque propuesto de subtitulado de música. Nuestro código y conjuntos de datos se pueden encontrar en https://huggingface.co/JoshuaW1997/FUTGA.
English
Existing music captioning methods are limited to generating concise global descriptions of short music clips, which fail to capture fine-grained musical characteristics and time-aware musical changes. To address these limitations, we propose FUTGA, a model equipped with fined-grained music understanding capabilities through learning from generative augmentation with temporal compositions. We leverage existing music caption datasets and large language models (LLMs) to synthesize fine-grained music captions with structural descriptions and time boundaries for full-length songs. Augmented by the proposed synthetic dataset, FUTGA is enabled to identify the music's temporal changes at key transition points and their musical functions, as well as generate detailed descriptions for each music segment. We further introduce a full-length music caption dataset generated by FUTGA, as the augmentation of the MusicCaps and the Song Describer datasets. We evaluate the automatically generated captions on several downstream tasks, including music generation and retrieval. The experiments demonstrate the quality of the generated captions and the better performance in various downstream tasks achieved by the proposed music captioning approach. Our code and datasets can be found in https://huggingface.co/JoshuaW1997/FUTGA{blue{https://huggingface.co/JoshuaW1997/FUTGA}}.

Summary

AI-Generated Summary

PDF233November 28, 2024