SonicVerse: Multi-Task Learning voor Muziekkenmerk-Gestuurde Beschrijving
SonicVerse: Multi-Task Learning for Music Feature-Informed Captioning
June 18, 2025
Auteurs: Anuradha Chopra, Abhinaba Roy, Dorien Herremans
cs.AI
Samenvatting
Gedetailleerde bijschriften die de kenmerken van een muziekstuk nauwkeurig weergeven, kunnen muziekdatabases verrijken en onderzoek naar muziek-AI vooruithelpen. Dit artikel introduceert een multi-task muziekbijschriftmodel, SonicVerse, dat bijschriftgeneratie integreert met aanvullende muziekkenmerkdetectietaken zoals toonsoortdetectie, vocalendetectie en meer, om zowel laagniveau akoestische details als hoog-niveau muzikale attributen direct vast te leggen. De belangrijkste bijdrage is een op projectie gebaseerde architectuur die audio-invoer omzet in taaltokens, terwijl tegelijkertijd muziekkenmerken worden gedetecteerd via toegewijde aanvullende heads. De uitvoer van deze heads wordt ook geprojecteerd in taaltokens, om de invoer voor het bijschrift te versterken. Dit framework produceert niet alleen rijke, beschrijvende bijschriften voor korte muziekfragmenten, maar maakt ook direct de generatie mogelijk van gedetailleerde tijdgebonden beschrijvingen voor langere muziekstukken, door de uitvoer te koppelen met behulp van een groot-taalmodel. Om het model te trainen, hebben we de MusicBench-dataset uitgebreid door deze te annoteren met muziekkenmerken met behulp van MIRFLEX, een modulaire muziekkenmerkextractor, wat resulteerde in gepaarde audio, bijschriften en muziekkenmerkdata. Experimentele resultaten tonen aan dat het op deze manier incorporeren van kenmerken de kwaliteit en detaillering van de gegenereerde bijschriften verbetert.
English
Detailed captions that accurately reflect the characteristics of a music
piece can enrich music databases and drive forward research in music AI. This
paper introduces a multi-task music captioning model, SonicVerse, that
integrates caption generation with auxiliary music feature detection tasks such
as key detection, vocals detection, and more, so as to directly capture both
low-level acoustic details as well as high-level musical attributes. The key
contribution is a projection-based architecture that transforms audio input
into language tokens, while simultaneously detecting music features through
dedicated auxiliary heads. The outputs of these heads are also projected into
language tokens, to enhance the captioning input. This framework not only
produces rich, descriptive captions for short music fragments but also directly
enables the generation of detailed time-informed descriptions for longer music
pieces, by chaining the outputs using a large-language model. To train the
model, we extended the MusicBench dataset by annotating it with music features
using MIRFLEX, a modular music feature extractor, resulting in paired audio,
captions and music feature data. Experimental results show that incorporating
features in this way improves the quality and detail of the generated captions.