Futga: Op weg naar fijnmazig muziekbegrip door middel van temporeel verbeterde generatieve augmentatie
Futga: Towards Fine-grained Music Understanding through Temporally-enhanced Generative Augmentation
July 29, 2024
Auteurs: Junda Wu, Zachary Novack, Amit Namburi, Jiaheng Dai, Hao-Wen Dong, Zhouhang Xie, Carol Chen, Julian McAuley
cs.AI
Samenvatting
Bestaande methoden voor muziekbeschrijving zijn beperkt tot het genereren van beknopte globale beschrijvingen van korte muziekfragmenten, die geen fijnmazige muzikale kenmerken en tijdgebonden muzikale veranderingen vastleggen. Om deze beperkingen aan te pakken, stellen we FUTGA voor, een model dat is uitgerust met fijnmazige muziekbegripcapaciteiten door te leren van generatieve augmentatie met temporele composities. We maken gebruik van bestaande muziekbeschrijvingsdatasets en grote taalmodellen (LLMs) om fijnmazige muziekbeschrijvingen te synthetiseren met structurele beschrijvingen en tijdsgrenzen voor volledige nummers. Gesterkt door de voorgestelde synthetische dataset, is FUTGA in staat om de temporele veranderingen in de muziek op belangrijke overgangspunten en hun muzikale functies te identificeren, evenals gedetailleerde beschrijvingen te genereren voor elk muzieksegment. We introduceren verder een dataset met volledige muziekbeschrijvingen gegenereerd door FUTGA, als een aanvulling op de MusicCaps- en Song Describer-datasets. We evalueren de automatisch gegenereerde beschrijvingen op verschillende downstream taken, waaronder muziekgeneratie en -retrieval. De experimenten tonen de kwaliteit van de gegenereerde beschrijvingen en de betere prestaties in diverse downstream taken die worden bereikt door de voorgestelde muziekbeschrijvingsaanpak. Onze code en datasets zijn te vinden op https://huggingface.co/JoshuaW1997/FUTGA{blue{https://huggingface.co/JoshuaW1997/FUTGA}}.
English
Existing music captioning methods are limited to generating concise global
descriptions of short music clips, which fail to capture fine-grained musical
characteristics and time-aware musical changes. To address these limitations,
we propose FUTGA, a model equipped with fined-grained music understanding
capabilities through learning from generative augmentation with temporal
compositions. We leverage existing music caption datasets and large language
models (LLMs) to synthesize fine-grained music captions with structural
descriptions and time boundaries for full-length songs. Augmented by the
proposed synthetic dataset, FUTGA is enabled to identify the music's temporal
changes at key transition points and their musical functions, as well as
generate detailed descriptions for each music segment. We further introduce a
full-length music caption dataset generated by FUTGA, as the augmentation of
the MusicCaps and the Song Describer datasets. We evaluate the automatically
generated captions on several downstream tasks, including music generation and
retrieval. The experiments demonstrate the quality of the generated captions
and the better performance in various downstream tasks achieved by the proposed
music captioning approach. Our code and datasets can be found in
https://huggingface.co/JoshuaW1997/FUTGA{blue{https://huggingface.co/JoshuaW1997/FUTGA}}.