ChatPaper.aiChatPaper

Futga: Verso una comprensione fine-grained della musica attraverso l'aumentazione generativa potenziata temporalmente

Futga: Towards Fine-grained Music Understanding through Temporally-enhanced Generative Augmentation

July 29, 2024
Autori: Junda Wu, Zachary Novack, Amit Namburi, Jiaheng Dai, Hao-Wen Dong, Zhouhang Xie, Carol Chen, Julian McAuley
cs.AI

Abstract

I metodi esistenti per la descrizione musicale sono limitati alla generazione di descrizioni globali concise di brevi clip musicali, che non riescono a catturare le caratteristiche musicali dettagliate e i cambiamenti musicali nel tempo. Per affrontare queste limitazioni, proponiamo FUTGA, un modello dotato di capacità di comprensione musicale fine attraverso l'apprendimento da un'augmentazione generativa con composizioni temporali. Utilizziamo i dataset esistenti di descrizioni musicali e i modelli linguistici di grandi dimensioni (LLM) per sintetizzare descrizioni musicali dettagliate con descrizioni strutturali e limiti temporali per canzoni complete. Aumentato dal dataset sintetico proposto, FUTGA è in grado di identificare i cambiamenti temporali della musica nei punti di transizione chiave e le loro funzioni musicali, nonché di generare descrizioni dettagliate per ogni segmento musicale. Introduciamo inoltre un dataset di descrizioni musicali complete generato da FUTGA, come ampliamento dei dataset MusicCaps e Song Describer. Valutiamo le descrizioni generate automaticamente su diverse attività downstream, tra cui la generazione e il recupero musicale. Gli esperimenti dimostrano la qualità delle descrizioni generate e le migliori prestazioni in varie attività downstream ottenute con l'approccio proposto per la descrizione musicale. Il nostro codice e i dataset sono disponibili su https://huggingface.co/JoshuaW1997/FUTGA{blue{https://huggingface.co/JoshuaW1997/FUTGA}}.
English
Existing music captioning methods are limited to generating concise global descriptions of short music clips, which fail to capture fine-grained musical characteristics and time-aware musical changes. To address these limitations, we propose FUTGA, a model equipped with fined-grained music understanding capabilities through learning from generative augmentation with temporal compositions. We leverage existing music caption datasets and large language models (LLMs) to synthesize fine-grained music captions with structural descriptions and time boundaries for full-length songs. Augmented by the proposed synthetic dataset, FUTGA is enabled to identify the music's temporal changes at key transition points and their musical functions, as well as generate detailed descriptions for each music segment. We further introduce a full-length music caption dataset generated by FUTGA, as the augmentation of the MusicCaps and the Song Describer datasets. We evaluate the automatically generated captions on several downstream tasks, including music generation and retrieval. The experiments demonstrate the quality of the generated captions and the better performance in various downstream tasks achieved by the proposed music captioning approach. Our code and datasets can be found in https://huggingface.co/JoshuaW1997/FUTGA{blue{https://huggingface.co/JoshuaW1997/FUTGA}}.
PDF233November 28, 2024