CultureMERT: Continuele Pre-training voor Cross-Culturele Muziekrepresentatieleer

Samenvatting

Recente vooruitgang in muziekfoundationmodellen heeft de representatie van audio verbeterd, maar hun effectiviteit over diverse muziektradities blijft beperkt. We introduceren CultureMERT-95M, een multicultureel aangepast foundationmodel ontwikkeld om het leren en begrijpen van cross-culturele muziekrepresentaties te verbeteren. Om dit te bereiken, stellen we een tweefasige voortdurende vooropleidingsstrategie voor die het opnieuw opwarmen en verval van de leercurve integreert, waardoor stabiele aanpassing mogelijk is, zelfs met beperkte rekenbronnen. Training op een 650 uur durende multiculturele dataset, bestaande uit Griekse, Turkse en Indiase muziektradities, resulteert in een gemiddelde verbetering van 4,9% in ROC-AUC en AP over diverse niet-Westerse muziekautotaggingtaken, wat de vorige state-of-the-art overtreft, met minimale vergetelheid op Westers-gecentreerde benchmarks. We onderzoeken verder taakarithmetiek, een alternatieve benadering voor multiculturele aanpassing die enkelcultuuraangepaste modellen in de gewichtsruimte samenvoegt. Taakarithmetiek presteert even goed als ons multicultureel getrainde model op niet-Westerse autotaggingtaken en vertoont geen terugval op Westerse datasets. Cross-culturele evaluatie toont aan dat enkelcultuurmodellen met wisselende effectiviteit over muziektradities heen overdragen, terwijl het multicultureel aangepaste model de beste algehele prestaties behaalt. Om onderzoek naar wereldmuziekrepresentatie te ondersteunen, geven we CultureMERT-95M en CultureMERT-TA-95M openbaar vrij, wat de ontwikkeling van meer cultureel bewuste muziekfoundationmodellen bevordert.

English

Recent advances in music foundation models have improved audio representation learning, yet their effectiveness across diverse musical traditions remains limited. We introduce CultureMERT-95M, a multi-culturally adapted foundation model developed to enhance cross-cultural music representation learning and understanding. To achieve this, we propose a two-stage continual pre-training strategy that integrates learning rate re-warming and re-decaying, enabling stable adaptation even with limited computational resources. Training on a 650-hour multi-cultural data mix, comprising Greek, Turkish, and Indian music traditions, results in an average improvement of 4.9% in ROC-AUC and AP across diverse non-Western music auto-tagging tasks, surpassing prior state-of-the-art, with minimal forgetting on Western-centric benchmarks. We further investigate task arithmetic, an alternative approach to multi-cultural adaptation that merges single-culture adapted models in the weight space. Task arithmetic performs on par with our multi-culturally trained model on non-Western auto-tagging tasks and shows no regression on Western datasets. Cross-cultural evaluation reveals that single-culture models transfer with varying effectiveness across musical traditions, whereas the multi-culturally adapted model achieves the best overall performance. To support research on world music representation learning, we publicly release CultureMERT-95M and CultureMERT-TA-95M, fostering the development of more culturally aware music foundation models.

CultureMERT: Continuele Pre-training voor Cross-Culturele Muziekrepresentatieleer

CultureMERT: Continual Pre-Training for Cross-Cultural Music Representation Learning

Samenvatting

Support