ChatPaper.aiChatPaper

Futga: К утонченному пониманию музыки через временно усиленное генеративное увеличение.

Futga: Towards Fine-grained Music Understanding through Temporally-enhanced Generative Augmentation

July 29, 2024
Авторы: Junda Wu, Zachary Novack, Amit Namburi, Jiaheng Dai, Hao-Wen Dong, Zhouhang Xie, Carol Chen, Julian McAuley
cs.AI

Аннотация

Существующие методы подписывания музыки ограничены генерацией кратких общих описаний коротких музыкальных клипов, которые не улавливают тонкие музыкальные характеристики и изменения музыкального времени. Для решения этих ограничений мы предлагаем FUTGA, модель, оснащенную возможностями тонкой музыкальной интерпретации через обучение на основе генеративного увеличения с темпоральными композициями. Мы используем существующие наборы данных для подписывания музыки и большие языковые модели (LLM) для синтеза тонких музыкальных подписей с структурными описаниями и временными границами для полноформатных песен. Усиленный предложенным синтетическим набором данных, FUTGA способен идентифицировать временные изменения в музыке на ключевых точках перехода и их музыкальные функции, а также генерировать подробные описания для каждого музыкального сегмента. Мы также представляем набор данных полноформатных подписей музыки, сгенерированный FUTGA, как дополнение к наборам данных MusicCaps и Song Describer. Мы оцениваем автоматически сгенерированные подписи на нескольких задачах вторичной обработки, включая генерацию и поиск музыки. Эксперименты демонстрируют качество сгенерированных подписей и лучшую производительность в различных задачах вторичной обработки, достигнутую предложенным подходом к подписыванию музыки. Наш код и наборы данных можно найти по ссылке https://huggingface.co/JoshuaW1997/FUTGA.
English
Existing music captioning methods are limited to generating concise global descriptions of short music clips, which fail to capture fine-grained musical characteristics and time-aware musical changes. To address these limitations, we propose FUTGA, a model equipped with fined-grained music understanding capabilities through learning from generative augmentation with temporal compositions. We leverage existing music caption datasets and large language models (LLMs) to synthesize fine-grained music captions with structural descriptions and time boundaries for full-length songs. Augmented by the proposed synthetic dataset, FUTGA is enabled to identify the music's temporal changes at key transition points and their musical functions, as well as generate detailed descriptions for each music segment. We further introduce a full-length music caption dataset generated by FUTGA, as the augmentation of the MusicCaps and the Song Describer datasets. We evaluate the automatically generated captions on several downstream tasks, including music generation and retrieval. The experiments demonstrate the quality of the generated captions and the better performance in various downstream tasks achieved by the proposed music captioning approach. Our code and datasets can be found in https://huggingface.co/JoshuaW1997/FUTGA{blue{https://huggingface.co/JoshuaW1997/FUTGA}}.

Summary

AI-Generated Summary

PDF233November 28, 2024