Futga: Verso una comprensione fine-grained della musica attraverso l'aumentazione generativa potenziata temporalmente
Futga: Towards Fine-grained Music Understanding through Temporally-enhanced Generative Augmentation
July 29, 2024
Autori: Junda Wu, Zachary Novack, Amit Namburi, Jiaheng Dai, Hao-Wen Dong, Zhouhang Xie, Carol Chen, Julian McAuley
cs.AI
Abstract
I metodi esistenti per la descrizione musicale sono limitati alla generazione di descrizioni globali concise di brevi clip musicali, che non riescono a catturare le caratteristiche musicali dettagliate e i cambiamenti musicali nel tempo. Per affrontare queste limitazioni, proponiamo FUTGA, un modello dotato di capacità di comprensione musicale fine attraverso l'apprendimento da un'augmentazione generativa con composizioni temporali. Utilizziamo i dataset esistenti di descrizioni musicali e i modelli linguistici di grandi dimensioni (LLM) per sintetizzare descrizioni musicali dettagliate con descrizioni strutturali e limiti temporali per canzoni complete. Aumentato dal dataset sintetico proposto, FUTGA è in grado di identificare i cambiamenti temporali della musica nei punti di transizione chiave e le loro funzioni musicali, nonché di generare descrizioni dettagliate per ogni segmento musicale. Introduciamo inoltre un dataset di descrizioni musicali complete generato da FUTGA, come ampliamento dei dataset MusicCaps e Song Describer. Valutiamo le descrizioni generate automaticamente su diverse attività downstream, tra cui la generazione e il recupero musicale. Gli esperimenti dimostrano la qualità delle descrizioni generate e le migliori prestazioni in varie attività downstream ottenute con l'approccio proposto per la descrizione musicale. Il nostro codice e i dataset sono disponibili su https://huggingface.co/JoshuaW1997/FUTGA{blue{https://huggingface.co/JoshuaW1997/FUTGA}}.
English
Existing music captioning methods are limited to generating concise global
descriptions of short music clips, which fail to capture fine-grained musical
characteristics and time-aware musical changes. To address these limitations,
we propose FUTGA, a model equipped with fined-grained music understanding
capabilities through learning from generative augmentation with temporal
compositions. We leverage existing music caption datasets and large language
models (LLMs) to synthesize fine-grained music captions with structural
descriptions and time boundaries for full-length songs. Augmented by the
proposed synthetic dataset, FUTGA is enabled to identify the music's temporal
changes at key transition points and their musical functions, as well as
generate detailed descriptions for each music segment. We further introduce a
full-length music caption dataset generated by FUTGA, as the augmentation of
the MusicCaps and the Song Describer datasets. We evaluate the automatically
generated captions on several downstream tasks, including music generation and
retrieval. The experiments demonstrate the quality of the generated captions
and the better performance in various downstream tasks achieved by the proposed
music captioning approach. Our code and datasets can be found in
https://huggingface.co/JoshuaW1997/FUTGA{blue{https://huggingface.co/JoshuaW1997/FUTGA}}.