ChatPaper.aiChatPaper

SonicVerse: Многозадачное обучение для создания описаний с учетом музыкальных характеристик

SonicVerse: Multi-Task Learning for Music Feature-Informed Captioning

June 18, 2025
Авторы: Anuradha Chopra, Abhinaba Roy, Dorien Herremans
cs.AI

Аннотация

Подробные описания, которые точно отражают характеристики музыкального произведения, могут обогатить музыкальные базы данных и способствовать развитию исследований в области музыкального искусственного интеллекта. В данной статье представлена многозадачная модель генерации описаний музыки, SonicVerse, которая объединяет создание описаний с дополнительными задачами обнаружения музыкальных характеристик, такими как определение тональности, наличие вокала и другие, чтобы непосредственно захватывать как низкоуровневые акустические детали, так и высокоуровневые музыкальные атрибуты. Ключевым вкладом является архитектура на основе проекций, которая преобразует аудиовход в языковые токены, одновременно обнаруживая музыкальные характеристики с помощью специализированных вспомогательных модулей. Выходные данные этих модулей также проецируются в языковые токены для улучшения входных данных для генерации описаний. Этот подход не только создает насыщенные и описательные подписи для коротких музыкальных фрагментов, но и позволяет напрямую генерировать детализированные временные описания для более длинных музыкальных произведений, объединяя выходные данные с использованием крупной языковой модели. Для обучения модели мы расширили набор данных MusicBench, аннотировав его музыкальными характеристиками с помощью MIRFLEX, модульного экстрактора музыкальных признаков, что привело к созданию парных данных: аудио, описаний и музыкальных характеристик. Экспериментальные результаты показывают, что включение характеристик таким образом улучшает качество и детализацию генерируемых описаний.
English
Detailed captions that accurately reflect the characteristics of a music piece can enrich music databases and drive forward research in music AI. This paper introduces a multi-task music captioning model, SonicVerse, that integrates caption generation with auxiliary music feature detection tasks such as key detection, vocals detection, and more, so as to directly capture both low-level acoustic details as well as high-level musical attributes. The key contribution is a projection-based architecture that transforms audio input into language tokens, while simultaneously detecting music features through dedicated auxiliary heads. The outputs of these heads are also projected into language tokens, to enhance the captioning input. This framework not only produces rich, descriptive captions for short music fragments but also directly enables the generation of detailed time-informed descriptions for longer music pieces, by chaining the outputs using a large-language model. To train the model, we extended the MusicBench dataset by annotating it with music features using MIRFLEX, a modular music feature extractor, resulting in paired audio, captions and music feature data. Experimental results show that incorporating features in this way improves the quality and detail of the generated captions.
PDF64June 20, 2025