ChatPaper.aiChatPaper

CultureMERT: Непрерывное предварительное обучение для кросс-культурного представления музыки

CultureMERT: Continual Pre-Training for Cross-Cultural Music Representation Learning

June 21, 2025
Авторы: Angelos-Nikolaos Kanatas, Charilaos Papaioannou, Alexandros Potamianos
cs.AI

Аннотация

Последние достижения в области базовых моделей для музыки улучшили обучение представлениям аудио, однако их эффективность в различных музыкальных традициях остается ограниченной. Мы представляем CultureMERT-95M, многокультурно адаптированную базовую модель, разработанную для улучшения обучения и понимания кросс-культурных музыкальных представлений. Для достижения этой цели мы предлагаем двухэтапную стратегию непрерывного предварительного обучения, которая включает повторный разогрев и повторное затухание скорости обучения, что позволяет стабильно адаптироваться даже при ограниченных вычислительных ресурсах. Обучение на 650-часовом многокультурном наборе данных, включающем греческие, турецкие и индийские музыкальные традиции, приводит к среднему улучшению на 4,9% по показателям ROC-AUC и AP в различных задачах автоматической разметки не-западной музыки, превосходя предыдущие передовые результаты, с минимальным забыванием на западных бенчмарках. Мы также исследуем арифметику задач, альтернативный подход к многокультурной адаптации, который объединяет модели, адаптированные для отдельных культур, в пространстве весов. Арифметика задач показывает результаты, сопоставимые с нашей многокультурно обученной моделью в задачах автоматической разметки не-западной музыки, и не демонстрирует регрессии на западных наборах данных. Кросс-культурная оценка показывает, что модели, адаптированные для отдельных культур, переносятся с разной эффективностью на различные музыкальные традиции, тогда как многокультурно адаптированная модель достигает наилучших общих результатов. Для поддержки исследований в области обучения представлений мировой музыки мы публично выпускаем CultureMERT-95M и CultureMERT-TA-95M, способствуя разработке более культурно осознанных базовых моделей для музыки.
English
Recent advances in music foundation models have improved audio representation learning, yet their effectiveness across diverse musical traditions remains limited. We introduce CultureMERT-95M, a multi-culturally adapted foundation model developed to enhance cross-cultural music representation learning and understanding. To achieve this, we propose a two-stage continual pre-training strategy that integrates learning rate re-warming and re-decaying, enabling stable adaptation even with limited computational resources. Training on a 650-hour multi-cultural data mix, comprising Greek, Turkish, and Indian music traditions, results in an average improvement of 4.9% in ROC-AUC and AP across diverse non-Western music auto-tagging tasks, surpassing prior state-of-the-art, with minimal forgetting on Western-centric benchmarks. We further investigate task arithmetic, an alternative approach to multi-cultural adaptation that merges single-culture adapted models in the weight space. Task arithmetic performs on par with our multi-culturally trained model on non-Western auto-tagging tasks and shows no regression on Western datasets. Cross-cultural evaluation reveals that single-culture models transfer with varying effectiveness across musical traditions, whereas the multi-culturally adapted model achieves the best overall performance. To support research on world music representation learning, we publicly release CultureMERT-95M and CultureMERT-TA-95M, fostering the development of more culturally aware music foundation models.
PDF31June 24, 2025