Futga : Vers une compréhension fine de la musique grâce à l'augmentation générative améliorée temporellement
Futga: Towards Fine-grained Music Understanding through Temporally-enhanced Generative Augmentation
July 29, 2024
papers.authors: Junda Wu, Zachary Novack, Amit Namburi, Jiaheng Dai, Hao-Wen Dong, Zhouhang Xie, Carol Chen, Julian McAuley
cs.AI
papers.abstract
Les méthodes existantes de légendage musical se limitent à générer des descriptions globales concises pour de courts extraits musicaux, ce qui ne permet pas de capturer les caractéristiques musicales fines et les changements temporels dans la musique. Pour pallier ces limitations, nous proposons FUTGA, un modèle doté de capacités de compréhension fine de la musique grâce à un apprentissage basé sur l'augmentation générative avec des compositions temporelles. Nous exploitons des ensembles de données existants de légendes musicales et des modèles de langage de grande taille (LLMs) pour synthétiser des légendes musicales détaillées incluant des descriptions structurelles et des limites temporelles pour des chansons complètes. Enrichi par l'ensemble de données synthétiques proposé, FUTGA est capable d'identifier les changements temporels de la musique aux points de transition clés ainsi que leurs fonctions musicales, tout en générant des descriptions détaillées pour chaque segment musical. Nous introduisons également un ensemble de données de légendes musicales pour des chansons complètes généré par FUTGA, en complément des ensembles de données MusicCaps et Song Describer. Nous évaluons les légendes générées automatiquement sur plusieurs tâches en aval, incluant la génération et la recherche musicale. Les expériences démontrent la qualité des légendes générées et la meilleure performance dans diverses tâches en aval obtenue par notre approche de légendage musical. Notre code et nos ensembles de données sont disponibles à l'adresse suivante : https://huggingface.co/JoshuaW1997/FUTGA{blue{https://huggingface.co/JoshuaW1997/FUTGA}}.
English
Existing music captioning methods are limited to generating concise global
descriptions of short music clips, which fail to capture fine-grained musical
characteristics and time-aware musical changes. To address these limitations,
we propose FUTGA, a model equipped with fined-grained music understanding
capabilities through learning from generative augmentation with temporal
compositions. We leverage existing music caption datasets and large language
models (LLMs) to synthesize fine-grained music captions with structural
descriptions and time boundaries for full-length songs. Augmented by the
proposed synthetic dataset, FUTGA is enabled to identify the music's temporal
changes at key transition points and their musical functions, as well as
generate detailed descriptions for each music segment. We further introduce a
full-length music caption dataset generated by FUTGA, as the augmentation of
the MusicCaps and the Song Describer datasets. We evaluate the automatically
generated captions on several downstream tasks, including music generation and
retrieval. The experiments demonstrate the quality of the generated captions
and the better performance in various downstream tasks achieved by the proposed
music captioning approach. Our code and datasets can be found in
https://huggingface.co/JoshuaW1997/FUTGA{blue{https://huggingface.co/JoshuaW1997/FUTGA}}.