SonicVerse: Apprendimento Multi-Task per la Generazione di Didascalie Informate dalle Caratteristiche Musicali
SonicVerse: Multi-Task Learning for Music Feature-Informed Captioning
June 18, 2025
Autori: Anuradha Chopra, Abhinaba Roy, Dorien Herremans
cs.AI
Abstract
Descrizioni dettagliate che riflettono accuratamente le caratteristiche di un brano musicale possono arricchire i database musicali e favorire la ricerca nell'ambito dell'AI musicale. Questo articolo introduce un modello di descrizione musicale multi-task, SonicVerse, che integra la generazione di descrizioni con attività ausiliarie di rilevamento di caratteristiche musicali come l'individuazione della tonalità, la presenza di voci e altro, al fine di catturare direttamente sia i dettagli acustici di basso livello che gli attributi musicali di alto livello. Il contributo principale è un'architettura basata su proiezione che trasforma l'input audio in token linguistici, rilevando contemporaneamente le caratteristiche musicali attraverso appositi moduli ausiliari. Gli output di questi moduli vengono anch'essi proiettati in token linguistici, per arricchire l'input della descrizione. Questo framework non solo produce descrizioni ricche e dettagliate per brevi frammenti musicali, ma consente anche direttamente la generazione di descrizioni temporali dettagliate per brani musicali più lunghi, concatenando gli output utilizzando un modello linguistico di grandi dimensioni. Per addestrare il modello, abbiamo esteso il dataset MusicBench annotandolo con caratteristiche musicali utilizzando MIRFLEX, un estrattore modulare di caratteristiche musicali, ottenendo così dati accoppiati di audio, descrizioni e caratteristiche musicali. I risultati sperimentali dimostrano che l'incorporazione delle caratteristiche in questo modo migliora la qualità e il dettaglio delle descrizioni generate.
English
Detailed captions that accurately reflect the characteristics of a music
piece can enrich music databases and drive forward research in music AI. This
paper introduces a multi-task music captioning model, SonicVerse, that
integrates caption generation with auxiliary music feature detection tasks such
as key detection, vocals detection, and more, so as to directly capture both
low-level acoustic details as well as high-level musical attributes. The key
contribution is a projection-based architecture that transforms audio input
into language tokens, while simultaneously detecting music features through
dedicated auxiliary heads. The outputs of these heads are also projected into
language tokens, to enhance the captioning input. This framework not only
produces rich, descriptive captions for short music fragments but also directly
enables the generation of detailed time-informed descriptions for longer music
pieces, by chaining the outputs using a large-language model. To train the
model, we extended the MusicBench dataset by annotating it with music features
using MIRFLEX, a modular music feature extractor, resulting in paired audio,
captions and music feature data. Experimental results show that incorporating
features in this way improves the quality and detail of the generated captions.