ChatPaper.aiChatPaper

SonicVerse: Aprendizado Multitarefo para Geração de Legendas Informadas por Características Musicais

SonicVerse: Multi-Task Learning for Music Feature-Informed Captioning

June 18, 2025
Autores: Anuradha Chopra, Abhinaba Roy, Dorien Herremans
cs.AI

Resumo

Legendas detalhadas que refletem com precisão as características de uma peça musical podem enriquecer bases de dados musicais e impulsionar pesquisas em IA musical. Este artigo apresenta um modelo de legendagem musical multitarefa, o SonicVerse, que integra a geração de legendas com tarefas auxiliares de detecção de características musicais, como detecção de tonalidade, detecção de vocais e mais, para capturar diretamente tanto detalhes acústicos de baixo nível quanto atributos musicais de alto nível. A principal contribuição é uma arquitetura baseada em projeção que transforma a entrada de áudio em tokens de linguagem, enquanto detecta simultaneamente características musicais por meio de cabeças auxiliares dedicadas. As saídas dessas cabeças também são projetadas em tokens de linguagem, para aprimorar a entrada de legendagem. Esse framework não apenas produz legendas ricas e descritivas para fragmentos musicais curtos, mas também permite diretamente a geração de descrições detalhadas e informadas pelo tempo para peças musicais mais longas, encadeando as saídas usando um modelo de linguagem de grande escala. Para treinar o modelo, estendemos o conjunto de dados MusicBench, anotando-o com características musicais usando o MIRFLEX, um extrator modular de características musicais, resultando em dados pareados de áudio, legendas e características musicais. Resultados experimentais mostram que a incorporação de características dessa maneira melhora a qualidade e o detalhamento das legendas geradas.
English
Detailed captions that accurately reflect the characteristics of a music piece can enrich music databases and drive forward research in music AI. This paper introduces a multi-task music captioning model, SonicVerse, that integrates caption generation with auxiliary music feature detection tasks such as key detection, vocals detection, and more, so as to directly capture both low-level acoustic details as well as high-level musical attributes. The key contribution is a projection-based architecture that transforms audio input into language tokens, while simultaneously detecting music features through dedicated auxiliary heads. The outputs of these heads are also projected into language tokens, to enhance the captioning input. This framework not only produces rich, descriptive captions for short music fragments but also directly enables the generation of detailed time-informed descriptions for longer music pieces, by chaining the outputs using a large-language model. To train the model, we extended the MusicBench dataset by annotating it with music features using MIRFLEX, a modular music feature extractor, resulting in paired audio, captions and music feature data. Experimental results show that incorporating features in this way improves the quality and detail of the generated captions.
PDF84June 20, 2025