CultureMERT: Pré-treinamento Contínuo para Aprendizado de Representação Musical Transcultural
CultureMERT: Continual Pre-Training for Cross-Cultural Music Representation Learning
June 21, 2025
Autores: Angelos-Nikolaos Kanatas, Charilaos Papaioannou, Alexandros Potamianos
cs.AI
Resumo
Avanços recentes em modelos fundamentais de música têm aprimorado o aprendizado de representação de áudio, mas sua eficácia em diversas tradições musicais ainda é limitada. Apresentamos o CultureMERT-95M, um modelo fundamental adaptado multiculturalmente, desenvolvido para melhorar o aprendizado e a compreensão de representações musicais transculturais. Para isso, propomos uma estratégia de pré-treinamento contínuo em duas etapas que integra reaquecimento e redução gradual da taxa de aprendizado, permitindo uma adaptação estável mesmo com recursos computacionais limitados. O treinamento em um conjunto de dados multiculturais de 650 horas, composto por tradições musicais gregas, turcas e indianas, resulta em uma melhoria média de 4,9% em ROC-AUC e AP em diversas tarefas de autotagging de música não ocidental, superando os melhores modelos anteriores, com esquecimento mínimo em benchmarks centrados na música ocidental. Investigamos ainda a aritmética de tarefas, uma abordagem alternativa para adaptação multicultural que combina modelos adaptados a culturas únicas no espaço de pesos. A aritmética de tarefas tem desempenho equivalente ao nosso modelo treinado multiculturalmente em tarefas de autotagging não ocidental e não apresenta regressão em conjuntos de dados ocidentais. A avaliação transcultural revela que modelos de cultura única transferem com eficácia variada entre tradições musicais, enquanto o modelo adaptado multiculturalmente alcança o melhor desempenho geral. Para apoiar a pesquisa em aprendizado de representação de música mundial, disponibilizamos publicamente o CultureMERT-95M e o CultureMERT-TA-95M, promovendo o desenvolvimento de modelos fundamentais de música mais conscientes culturalmente.
English
Recent advances in music foundation models have improved audio representation
learning, yet their effectiveness across diverse musical traditions remains
limited. We introduce CultureMERT-95M, a multi-culturally adapted foundation
model developed to enhance cross-cultural music representation learning and
understanding. To achieve this, we propose a two-stage continual pre-training
strategy that integrates learning rate re-warming and re-decaying, enabling
stable adaptation even with limited computational resources. Training on a
650-hour multi-cultural data mix, comprising Greek, Turkish, and Indian music
traditions, results in an average improvement of 4.9% in ROC-AUC and AP across
diverse non-Western music auto-tagging tasks, surpassing prior
state-of-the-art, with minimal forgetting on Western-centric benchmarks. We
further investigate task arithmetic, an alternative approach to multi-cultural
adaptation that merges single-culture adapted models in the weight space. Task
arithmetic performs on par with our multi-culturally trained model on
non-Western auto-tagging tasks and shows no regression on Western datasets.
Cross-cultural evaluation reveals that single-culture models transfer with
varying effectiveness across musical traditions, whereas the multi-culturally
adapted model achieves the best overall performance. To support research on
world music representation learning, we publicly release CultureMERT-95M and
CultureMERT-TA-95M, fostering the development of more culturally aware music
foundation models.