Futga: Rumo a uma Compreensão Musical Detalhada por meio de Ampliação Generativa Temporalmente Aprimorada
Futga: Towards Fine-grained Music Understanding through Temporally-enhanced Generative Augmentation
July 29, 2024
Autores: Junda Wu, Zachary Novack, Amit Namburi, Jiaheng Dai, Hao-Wen Dong, Zhouhang Xie, Carol Chen, Julian McAuley
cs.AI
Resumo
Os métodos existentes de legenda de música estão limitados a gerar descrições globais concisas de trechos curtos de música, o que falha em capturar características musicais detalhadas e mudanças musicais conscientes do tempo. Para lidar com essas limitações, propomos FUTGA, um modelo equipado com capacidades de compreensão musical detalhadas por meio de aprendizado a partir de ampliação generativa com composições temporais. Utilizamos conjuntos de dados de legendas de música existentes e grandes modelos de linguagem (LLMs) para sintetizar legendas de música detalhadas com descrições estruturais e limites temporais para músicas completas. Aumentado pelo conjunto de dados sintético proposto, FUTGA é capaz de identificar as mudanças temporais da música em pontos de transição chave e suas funções musicais, além de gerar descrições detalhadas para cada segmento musical. Introduzimos ainda um conjunto de dados de legenda de música completo gerado por FUTGA, como a ampliação dos conjuntos de dados MusicCaps e Song Describer. Avaliamos as legendas geradas automaticamente em várias tarefas secundárias, incluindo geração e recuperação de música. Os experimentos demonstram a qualidade das legendas geradas e o melhor desempenho em várias tarefas secundárias alcançado pela abordagem proposta de legenda de música. Nosso código e conjuntos de dados podem ser encontrados em https://huggingface.co/JoshuaW1997/FUTGA.
English
Existing music captioning methods are limited to generating concise global
descriptions of short music clips, which fail to capture fine-grained musical
characteristics and time-aware musical changes. To address these limitations,
we propose FUTGA, a model equipped with fined-grained music understanding
capabilities through learning from generative augmentation with temporal
compositions. We leverage existing music caption datasets and large language
models (LLMs) to synthesize fine-grained music captions with structural
descriptions and time boundaries for full-length songs. Augmented by the
proposed synthetic dataset, FUTGA is enabled to identify the music's temporal
changes at key transition points and their musical functions, as well as
generate detailed descriptions for each music segment. We further introduce a
full-length music caption dataset generated by FUTGA, as the augmentation of
the MusicCaps and the Song Describer datasets. We evaluate the automatically
generated captions on several downstream tasks, including music generation and
retrieval. The experiments demonstrate the quality of the generated captions
and the better performance in various downstream tasks achieved by the proposed
music captioning approach. Our code and datasets can be found in
https://huggingface.co/JoshuaW1997/FUTGA{blue{https://huggingface.co/JoshuaW1997/FUTGA}}.