ChatPaper.aiChatPaper

SonicVerse : Apprentissage multitâche pour la génération de légendes informées par les caractéristiques musicales

SonicVerse: Multi-Task Learning for Music Feature-Informed Captioning

June 18, 2025
Auteurs: Anuradha Chopra, Abhinaba Roy, Dorien Herremans
cs.AI

Résumé

Les légendes détaillées qui reflètent avec précision les caractéristiques d'un morceau de musique peuvent enrichir les bases de données musicales et faire progresser la recherche en intelligence artificielle musicale. Cet article présente un modèle de légendage musical multitâche, SonicVerse, qui intègre la génération de légendes avec des tâches auxiliaires de détection de caractéristiques musicales telles que la détection de tonalité, la détection de voix, et plus encore, afin de capturer directement à la fois les détails acoustiques de bas niveau et les attributs musicaux de haut niveau. La contribution principale est une architecture basée sur la projection qui transforme l'entrée audio en tokens linguistiques, tout en détectant simultanément les caractéristiques musicales grâce à des têtes auxiliaires dédiées. Les sorties de ces têtes sont également projetées en tokens linguistiques, afin d'améliorer l'entrée de légendage. Ce cadre produit non seulement des légendes riches et descriptives pour des fragments musicaux courts, mais permet également directement la génération de descriptions détaillées et temporellement informées pour des morceaux de musique plus longs, en enchaînant les sorties à l'aide d'un modèle de langage de grande envergure. Pour entraîner le modèle, nous avons étendu le jeu de données MusicBench en l'annotant avec des caractéristiques musicales à l'aide de MIRFLEX, un extracteur de caractéristiques musicales modulaire, aboutissant à des données audio, de légendes et de caractéristiques musicales appariées. Les résultats expérimentaux montrent que l'incorporation de caractéristiques de cette manière améliore la qualité et le détail des légendes générées.
English
Detailed captions that accurately reflect the characteristics of a music piece can enrich music databases and drive forward research in music AI. This paper introduces a multi-task music captioning model, SonicVerse, that integrates caption generation with auxiliary music feature detection tasks such as key detection, vocals detection, and more, so as to directly capture both low-level acoustic details as well as high-level musical attributes. The key contribution is a projection-based architecture that transforms audio input into language tokens, while simultaneously detecting music features through dedicated auxiliary heads. The outputs of these heads are also projected into language tokens, to enhance the captioning input. This framework not only produces rich, descriptive captions for short music fragments but also directly enables the generation of detailed time-informed descriptions for longer music pieces, by chaining the outputs using a large-language model. To train the model, we extended the MusicBench dataset by annotating it with music features using MIRFLEX, a modular music feature extractor, resulting in paired audio, captions and music feature data. Experimental results show that incorporating features in this way improves the quality and detail of the generated captions.
PDF64June 20, 2025