Futga : Vers une compréhension fine de la musique grâce à l'augmentation générative améliorée temporellement

papers.abstract

Les méthodes existantes de légendage musical se limitent à générer des descriptions globales concises pour de courts extraits musicaux, ce qui ne permet pas de capturer les caractéristiques musicales fines et les changements temporels dans la musique. Pour pallier ces limitations, nous proposons FUTGA, un modèle doté de capacités de compréhension fine de la musique grâce à un apprentissage basé sur l'augmentation générative avec des compositions temporelles. Nous exploitons des ensembles de données existants de légendes musicales et des modèles de langage de grande taille (LLMs) pour synthétiser des légendes musicales détaillées incluant des descriptions structurelles et des limites temporelles pour des chansons complètes. Enrichi par l'ensemble de données synthétiques proposé, FUTGA est capable d'identifier les changements temporels de la musique aux points de transition clés ainsi que leurs fonctions musicales, tout en générant des descriptions détaillées pour chaque segment musical. Nous introduisons également un ensemble de données de légendes musicales pour des chansons complètes généré par FUTGA, en complément des ensembles de données MusicCaps et Song Describer. Nous évaluons les légendes générées automatiquement sur plusieurs tâches en aval, incluant la génération et la recherche musicale. Les expériences démontrent la qualité des légendes générées et la meilleure performance dans diverses tâches en aval obtenue par notre approche de légendage musical. Notre code et nos ensembles de données sont disponibles à l'adresse suivante : https://huggingface.co/JoshuaW1997/FUTGA{blue{https://huggingface.co/JoshuaW1997/FUTGA}}.

English

Existing music captioning methods are limited to generating concise global descriptions of short music clips, which fail to capture fine-grained musical characteristics and time-aware musical changes. To address these limitations, we propose FUTGA, a model equipped with fined-grained music understanding capabilities through learning from generative augmentation with temporal compositions. We leverage existing music caption datasets and large language models (LLMs) to synthesize fine-grained music captions with structural descriptions and time boundaries for full-length songs. Augmented by the proposed synthetic dataset, FUTGA is enabled to identify the music's temporal changes at key transition points and their musical functions, as well as generate detailed descriptions for each music segment. We further introduce a full-length music caption dataset generated by FUTGA, as the augmentation of the MusicCaps and the Song Describer datasets. We evaluate the automatically generated captions on several downstream tasks, including music generation and retrieval. The experiments demonstrate the quality of the generated captions and the better performance in various downstream tasks achieved by the proposed music captioning approach. Our code and datasets can be found in https://huggingface.co/JoshuaW1997/FUTGA{blue{https://huggingface.co/JoshuaW1997/FUTGA}}.

Futga : Vers une compréhension fine de la musique grâce à l'augmentation générative améliorée temporellement

Futga: Towards Fine-grained Music Understanding through Temporally-enhanced Generative Augmentation

papers.abstract

Support