CultureMERT: Continuele Pre-training voor Cross-Culturele Muziekrepresentatieleer
CultureMERT: Continual Pre-Training for Cross-Cultural Music Representation Learning
June 21, 2025
Auteurs: Angelos-Nikolaos Kanatas, Charilaos Papaioannou, Alexandros Potamianos
cs.AI
Samenvatting
Recente vooruitgang in muziekfoundationmodellen heeft de representatie van audio verbeterd, maar hun effectiviteit over diverse muziektradities blijft beperkt. We introduceren CultureMERT-95M, een multicultureel aangepast foundationmodel ontwikkeld om het leren en begrijpen van cross-culturele muziekrepresentaties te verbeteren. Om dit te bereiken, stellen we een tweefasige voortdurende vooropleidingsstrategie voor die het opnieuw opwarmen en verval van de leercurve integreert, waardoor stabiele aanpassing mogelijk is, zelfs met beperkte rekenbronnen. Training op een 650 uur durende multiculturele dataset, bestaande uit Griekse, Turkse en Indiase muziektradities, resulteert in een gemiddelde verbetering van 4,9% in ROC-AUC en AP over diverse niet-Westerse muziekautotaggingtaken, wat de vorige state-of-the-art overtreft, met minimale vergetelheid op Westers-gecentreerde benchmarks. We onderzoeken verder taakarithmetiek, een alternatieve benadering voor multiculturele aanpassing die enkelcultuuraangepaste modellen in de gewichtsruimte samenvoegt. Taakarithmetiek presteert even goed als ons multicultureel getrainde model op niet-Westerse autotaggingtaken en vertoont geen terugval op Westerse datasets. Cross-culturele evaluatie toont aan dat enkelcultuurmodellen met wisselende effectiviteit over muziektradities heen overdragen, terwijl het multicultureel aangepaste model de beste algehele prestaties behaalt. Om onderzoek naar wereldmuziekrepresentatie te ondersteunen, geven we CultureMERT-95M en CultureMERT-TA-95M openbaar vrij, wat de ontwikkeling van meer cultureel bewuste muziekfoundationmodellen bevordert.
English
Recent advances in music foundation models have improved audio representation
learning, yet their effectiveness across diverse musical traditions remains
limited. We introduce CultureMERT-95M, a multi-culturally adapted foundation
model developed to enhance cross-cultural music representation learning and
understanding. To achieve this, we propose a two-stage continual pre-training
strategy that integrates learning rate re-warming and re-decaying, enabling
stable adaptation even with limited computational resources. Training on a
650-hour multi-cultural data mix, comprising Greek, Turkish, and Indian music
traditions, results in an average improvement of 4.9% in ROC-AUC and AP across
diverse non-Western music auto-tagging tasks, surpassing prior
state-of-the-art, with minimal forgetting on Western-centric benchmarks. We
further investigate task arithmetic, an alternative approach to multi-cultural
adaptation that merges single-culture adapted models in the weight space. Task
arithmetic performs on par with our multi-culturally trained model on
non-Western auto-tagging tasks and shows no regression on Western datasets.
Cross-cultural evaluation reveals that single-culture models transfer with
varying effectiveness across musical traditions, whereas the multi-culturally
adapted model achieves the best overall performance. To support research on
world music representation learning, we publicly release CultureMERT-95M and
CultureMERT-TA-95M, fostering the development of more culturally aware music
foundation models.