ChatPaper.aiChatPaper

SonicVerse: Aprendizaje Multitarea para la Generación de Descripciones Informadas por Características Musicales

SonicVerse: Multi-Task Learning for Music Feature-Informed Captioning

June 18, 2025
Autores: Anuradha Chopra, Abhinaba Roy, Dorien Herremans
cs.AI

Resumen

Las descripciones detalladas que reflejan con precisión las características de una pieza musical pueden enriquecer las bases de datos de música y avanzar la investigación en IA musical. Este artículo presenta un modelo multitarea de descripción musical, SonicVerse, que integra la generación de descripciones con tareas auxiliares de detección de características musicales, como la detección de tonalidad, la detección de voces y más, con el fin de capturar directamente tanto detalles acústicos de bajo nivel como atributos musicales de alto nivel. La contribución clave es una arquitectura basada en proyección que transforma la entrada de audio en tokens de lenguaje, mientras detecta simultáneamente características musicales a través de cabezales auxiliares dedicados. Las salidas de estos cabezales también se proyectan en tokens de lenguaje, para mejorar la entrada de la descripción. Este marco no solo produce descripciones ricas y detalladas para fragmentos musicales cortos, sino que también permite directamente la generación de descripciones detalladas y temporizadas para piezas musicales más largas, encadenando las salidas utilizando un modelo de lenguaje grande. Para entrenar el modelo, ampliamos el conjunto de datos MusicBench anotándolo con características musicales utilizando MIRFLEX, un extractor modular de características musicales, lo que resultó en datos emparejados de audio, descripciones y características musicales. Los resultados experimentales muestran que la incorporación de características de esta manera mejora la calidad y el detalle de las descripciones generadas.
English
Detailed captions that accurately reflect the characteristics of a music piece can enrich music databases and drive forward research in music AI. This paper introduces a multi-task music captioning model, SonicVerse, that integrates caption generation with auxiliary music feature detection tasks such as key detection, vocals detection, and more, so as to directly capture both low-level acoustic details as well as high-level musical attributes. The key contribution is a projection-based architecture that transforms audio input into language tokens, while simultaneously detecting music features through dedicated auxiliary heads. The outputs of these heads are also projected into language tokens, to enhance the captioning input. This framework not only produces rich, descriptive captions for short music fragments but also directly enables the generation of detailed time-informed descriptions for longer music pieces, by chaining the outputs using a large-language model. To train the model, we extended the MusicBench dataset by annotating it with music features using MIRFLEX, a modular music feature extractor, resulting in paired audio, captions and music feature data. Experimental results show that incorporating features in this way improves the quality and detail of the generated captions.
PDF64June 20, 2025