ChatPaper.aiChatPaper

CultureMERT : Pré-entraînement continu pour l'apprentissage de représentations musicales interculturelles

CultureMERT: Continual Pre-Training for Cross-Cultural Music Representation Learning

June 21, 2025
Auteurs: Angelos-Nikolaos Kanatas, Charilaos Papaioannou, Alexandros Potamianos
cs.AI

Résumé

Les récentes avancées dans les modèles de base pour la musique ont amélioré l'apprentissage des représentations audio, mais leur efficacité reste limitée face à la diversité des traditions musicales. Nous présentons CultureMERT-95M, un modèle de base adapté à plusieurs cultures, conçu pour renforcer l'apprentissage et la compréhension des représentations musicales interculturelles. Pour y parvenir, nous proposons une stratégie de pré-entraînement continu en deux étapes intégrant un réchauffement et un redécroissance du taux d'apprentissage, permettant une adaptation stable même avec des ressources computationnelles limitées. L'entraînement sur un mélange de données multiculturelles de 650 heures, comprenant des traditions musicales grecques, turques et indiennes, entraîne une amélioration moyenne de 4,9 % en ROC-AUC et AP pour diverses tâches d'auto-étiquetage de musiques non occidentales, surpassant les précédents modèles de pointe, avec un oubli minimal sur les benchmarks centrés sur la musique occidentale. Nous explorons également l'arithmétique des tâches, une approche alternative d'adaptation multiculturelle qui fusionne des modèles adaptés à une seule culture dans l'espace des poids. L'arithmétique des tâches performe aussi bien que notre modèle entraîné de manière multiculturelle sur les tâches d'auto-étiquetage non occidentales et ne montre aucune régression sur les ensembles de données occidentaux. L'évaluation interculturelle révèle que les modèles monoculturels se transfèrent avec une efficacité variable selon les traditions musicales, tandis que le modèle adapté multiculturel obtient les meilleures performances globales. Pour soutenir la recherche sur l'apprentissage des représentations musicales mondiales, nous rendons publics CultureMERT-95M et CultureMERT-TA-95M, favorisant ainsi le développement de modèles de base pour la musique plus conscients des aspects culturels.
English
Recent advances in music foundation models have improved audio representation learning, yet their effectiveness across diverse musical traditions remains limited. We introduce CultureMERT-95M, a multi-culturally adapted foundation model developed to enhance cross-cultural music representation learning and understanding. To achieve this, we propose a two-stage continual pre-training strategy that integrates learning rate re-warming and re-decaying, enabling stable adaptation even with limited computational resources. Training on a 650-hour multi-cultural data mix, comprising Greek, Turkish, and Indian music traditions, results in an average improvement of 4.9% in ROC-AUC and AP across diverse non-Western music auto-tagging tasks, surpassing prior state-of-the-art, with minimal forgetting on Western-centric benchmarks. We further investigate task arithmetic, an alternative approach to multi-cultural adaptation that merges single-culture adapted models in the weight space. Task arithmetic performs on par with our multi-culturally trained model on non-Western auto-tagging tasks and shows no regression on Western datasets. Cross-cultural evaluation reveals that single-culture models transfer with varying effectiveness across musical traditions, whereas the multi-culturally adapted model achieves the best overall performance. To support research on world music representation learning, we publicly release CultureMERT-95M and CultureMERT-TA-95M, fostering the development of more culturally aware music foundation models.
PDF31June 24, 2025