Futga: Auf dem Weg zu einer fein granulierten Musikverständnis durch zeitlich verbesserte generative Erweiterung
Futga: Towards Fine-grained Music Understanding through Temporally-enhanced Generative Augmentation
July 29, 2024
Autoren: Junda Wu, Zachary Novack, Amit Namburi, Jiaheng Dai, Hao-Wen Dong, Zhouhang Xie, Carol Chen, Julian McAuley
cs.AI
Zusammenfassung
Bestehende Methoden zur Musikbeschriftung sind darauf beschränkt, prägnante globale Beschreibungen kurzer Musikclips zu generieren, die feingliedrige musikalische Merkmale und zeitbewusste musikalische Veränderungen nicht erfassen. Um diese Einschränkungen zu überwinden, schlagen wir FUTGA vor, ein Modell, das mit feingliedriger Musikverständnisfähigkeit ausgestattet ist, indem es durch generative Erweiterung mit zeitlichen Kompositionen lernt. Wir nutzen bestehende Musikbeschriftungsdatensätze und große Sprachmodelle (LLMs), um feingliedrige Musikbeschriftungen mit strukturellen Beschreibungen und Zeitgrenzen für vollständige Lieder zu synthetisieren. Durch die vorgeschlagene synthetische Datensatz-Erweiterung ist FUTGA in der Lage, die zeitlichen Veränderungen der Musik an Schlüsselübergangspunkten und deren musikalische Funktionen zu identifizieren sowie detaillierte Beschreibungen für jeden Musikabschnitt zu generieren. Wir stellen außerdem einen vollständigen Musikbeschriftungsdatensatz vor, der von FUTGA generiert wurde, als Erweiterung der MusicCaps- und Song-Describer-Datensätze. Wir bewerten die automatisch generierten Beschriftungen in mehreren nachgelagerten Aufgaben, einschließlich Musikgenerierung und -abruf. Die Experimente zeigen die Qualität der generierten Beschriftungen und die bessere Leistung in verschiedenen nachgelagerten Aufgaben, die durch den vorgeschlagenen Ansatz zur Musikbeschriftung erreicht wurde. Unser Code und unsere Datensätze finden Sie unter https://huggingface.co/JoshuaW1997/FUTGA.
English
Existing music captioning methods are limited to generating concise global
descriptions of short music clips, which fail to capture fine-grained musical
characteristics and time-aware musical changes. To address these limitations,
we propose FUTGA, a model equipped with fined-grained music understanding
capabilities through learning from generative augmentation with temporal
compositions. We leverage existing music caption datasets and large language
models (LLMs) to synthesize fine-grained music captions with structural
descriptions and time boundaries for full-length songs. Augmented by the
proposed synthetic dataset, FUTGA is enabled to identify the music's temporal
changes at key transition points and their musical functions, as well as
generate detailed descriptions for each music segment. We further introduce a
full-length music caption dataset generated by FUTGA, as the augmentation of
the MusicCaps and the Song Describer datasets. We evaluate the automatically
generated captions on several downstream tasks, including music generation and
retrieval. The experiments demonstrate the quality of the generated captions
and the better performance in various downstream tasks achieved by the proposed
music captioning approach. Our code and datasets can be found in
https://huggingface.co/JoshuaW1997/FUTGA{blue{https://huggingface.co/JoshuaW1997/FUTGA}}.Summary
AI-Generated Summary