SonicVerse: Multi-Task-Lernen für musikfeaturebasierte Beschreibung
SonicVerse: Multi-Task Learning for Music Feature-Informed Captioning
June 18, 2025
Autoren: Anuradha Chopra, Abhinaba Roy, Dorien Herremans
cs.AI
Zusammenfassung
Detaillierte Beschreibungen, die die Eigenschaften eines Musikstücks präzise wiedergeben, können Musikdatenbanken bereichern und die Forschung im Bereich der Musik-KI vorantreiben. Dieses Papier stellt ein Multi-Task-Modell zur Musikkaptionierung vor, SonicVerse, das die Generierung von Beschreibungen mit zusätzlichen Aufgaben zur Erkennung von Musikmerkmalen wie Tonartdetektion, Gesangserkennung und mehr kombiniert, um sowohl niedrige akustische Details als auch hochrangige musikalische Attribute direkt zu erfassen. Der zentrale Beitrag ist eine projektionsbasierte Architektur, die Audioeingaben in Sprach-Tokens umwandelt, während gleichzeitig Musikmerkmale durch dedizierte Hilfsmodule erkannt werden. Die Ausgaben dieser Module werden ebenfalls in Sprach-Tokens projiziert, um die Eingabe für die Beschreibung zu verbessern. Dieser Rahmen erzeugt nicht nur reichhaltige, beschreibende Texte für kurze Musikfragmente, sondern ermöglicht auch direkt die Generierung detaillierter, zeitbezogener Beschreibungen für längere Musikstücke, indem die Ausgaben mithilfe eines großen Sprachmodells verkettet werden. Um das Modell zu trainieren, wurde der MusicBench-Datensatz erweitert, indem er mit Musikmerkmalen unter Verwendung von MIRFLEX, einem modularen Musikmerkmal-Extraktor, annotiert wurde, was gepaarte Audio-, Beschreibungs- und Musikmerkmaldaten ergab. Experimentelle Ergebnisse zeigen, dass die Einbindung von Merkmalen auf diese Weise die Qualität und Detailgenauigkeit der generierten Beschreibungen verbessert.
English
Detailed captions that accurately reflect the characteristics of a music
piece can enrich music databases and drive forward research in music AI. This
paper introduces a multi-task music captioning model, SonicVerse, that
integrates caption generation with auxiliary music feature detection tasks such
as key detection, vocals detection, and more, so as to directly capture both
low-level acoustic details as well as high-level musical attributes. The key
contribution is a projection-based architecture that transforms audio input
into language tokens, while simultaneously detecting music features through
dedicated auxiliary heads. The outputs of these heads are also projected into
language tokens, to enhance the captioning input. This framework not only
produces rich, descriptive captions for short music fragments but also directly
enables the generation of detailed time-informed descriptions for longer music
pieces, by chaining the outputs using a large-language model. To train the
model, we extended the MusicBench dataset by annotating it with music features
using MIRFLEX, a modular music feature extractor, resulting in paired audio,
captions and music feature data. Experimental results show that incorporating
features in this way improves the quality and detail of the generated captions.