CultureMERT: Pre-Addestramento Continuo per l'Apprendimento di Rappresentazioni Musicali Transculturali
CultureMERT: Continual Pre-Training for Cross-Cultural Music Representation Learning
June 21, 2025
Autori: Angelos-Nikolaos Kanatas, Charilaos Papaioannou, Alexandros Potamianos
cs.AI
Abstract
I recenti progressi nei modelli di base per la musica hanno migliorato l'apprendimento delle rappresentazioni audio, ma la loro efficacia attraverso diverse tradizioni musicali rimane limitata. Introduciamo CultureMERT-95M, un modello di base adattato multiculturalmente sviluppato per migliorare l'apprendimento e la comprensione delle rappresentazioni musicali interculturali. Per raggiungere questo obiettivo, proponiamo una strategia di pre-addestramento continuo in due fasi che integra il riscaldamento e il decadimento del tasso di apprendimento, consentendo un adattamento stabile anche con risorse computazionali limitate. L'addestramento su un mix di dati multiculturali di 650 ore, comprendente tradizioni musicali greche, turche e indiane, si traduce in un miglioramento medio del 4,9% in ROC-AUC e AP attraverso diverse attività di auto-etichettatura per musica non occidentale, superando i precedenti stati dell'arte, con un minimo oblio sui benchmark centrati sulla musica occidentale. Investigiamo ulteriormente l'aritmetica dei task, un approccio alternativo all'adattamento multiculturale che fonde modelli adattati a singole culture nello spazio dei pesi. L'aritmetica dei task performa alla pari con il nostro modello addestrato multiculturalmente nelle attività di auto-etichettatura per musica non occidentale e non mostra regressioni sui dataset occidentali. La valutazione interculturale rivela che i modelli a singola cultura si trasferiscono con efficacia variabile attraverso le tradizioni musicali, mentre il modello adattato multiculturalmente raggiunge le migliori prestazioni complessive. Per supportare la ricerca sull'apprendimento delle rappresentazioni della musica mondiale, rilasciamo pubblicamente CultureMERT-95M e CultureMERT-TA-95M, promuovendo lo sviluppo di modelli di base per la musica più consapevoli dal punto di vista culturale.
English
Recent advances in music foundation models have improved audio representation
learning, yet their effectiveness across diverse musical traditions remains
limited. We introduce CultureMERT-95M, a multi-culturally adapted foundation
model developed to enhance cross-cultural music representation learning and
understanding. To achieve this, we propose a two-stage continual pre-training
strategy that integrates learning rate re-warming and re-decaying, enabling
stable adaptation even with limited computational resources. Training on a
650-hour multi-cultural data mix, comprising Greek, Turkish, and Indian music
traditions, results in an average improvement of 4.9% in ROC-AUC and AP across
diverse non-Western music auto-tagging tasks, surpassing prior
state-of-the-art, with minimal forgetting on Western-centric benchmarks. We
further investigate task arithmetic, an alternative approach to multi-cultural
adaptation that merges single-culture adapted models in the weight space. Task
arithmetic performs on par with our multi-culturally trained model on
non-Western auto-tagging tasks and shows no regression on Western datasets.
Cross-cultural evaluation reveals that single-culture models transfer with
varying effectiveness across musical traditions, whereas the multi-culturally
adapted model achieves the best overall performance. To support research on
world music representation learning, we publicly release CultureMERT-95M and
CultureMERT-TA-95M, fostering the development of more culturally aware music
foundation models.