CultureMERT: Kontinuierliches Vor-Training für interkulturelle Musikrepräsentationslernverfahren

papers.abstract

Jüngste Fortschritte in Musik-Foundation-Modellen haben das Lernen von Audio-Repräsentationen verbessert, doch ihre Wirksamkeit über verschiedene musikalische Traditionen hinweg bleibt begrenzt. Wir stellen CultureMERT-95M vor, ein multikulturell angepasstes Foundation-Modell, das entwickelt wurde, um das Lernen und Verstehen von musikalischen Repräsentationen über kulturelle Grenzen hinweg zu verbessern. Um dies zu erreichen, schlagen wir eine zweistufige kontinuierliche Vorab-Trainingsstrategie vor, die die Neuerwärmung und das erneute Abklingen der Lernrate integriert, wodurch eine stabile Anpassung auch bei begrenzten Rechenressourcen ermöglicht wird. Das Training auf einem 650-stündigen multikulturellen Datensatz, der griechische, türkische und indische Musiktraditionen umfasst, führt zu einer durchschnittlichen Verbesserung von 4,9 % in ROC-AUC und AP über verschiedene nicht-westliche Musik-Auto-Tagging-Aufgaben hinweg und übertrifft damit den bisherigen Stand der Technik, wobei gleichzeitig das Vergessen auf westlich zentrierten Benchmarks minimal bleibt. Wir untersuchen weiterhin Task-Arithmetik, einen alternativen Ansatz zur multikulturellen Anpassung, der einzelkulturell angepasste Modelle im Gewichtsraum zusammenführt. Task-Arithmetik schneidet bei nicht-westlichen Auto-Tagging-Aufgaben ebenso gut ab wie unser multikulturell trainiertes Modell und zeigt keine Regression auf westlichen Datensätzen. Die interkulturelle Auswertung zeigt, dass einzelkulturelle Modelle mit unterschiedlicher Effektivität über musikalische Traditionen hinweg übertragen werden, während das multikulturell angepasste Modell die beste Gesamtleistung erzielt. Um die Forschung zum Lernen von Repräsentationen weltweiter Musik zu unterstützen, veröffentlichen wir CultureMERT-95M und CultureMERT-TA-95M öffentlich und fördern so die Entwicklung von kulturell bewussteren Musik-Foundation-Modellen.

English

Recent advances in music foundation models have improved audio representation learning, yet their effectiveness across diverse musical traditions remains limited. We introduce CultureMERT-95M, a multi-culturally adapted foundation model developed to enhance cross-cultural music representation learning and understanding. To achieve this, we propose a two-stage continual pre-training strategy that integrates learning rate re-warming and re-decaying, enabling stable adaptation even with limited computational resources. Training on a 650-hour multi-cultural data mix, comprising Greek, Turkish, and Indian music traditions, results in an average improvement of 4.9% in ROC-AUC and AP across diverse non-Western music auto-tagging tasks, surpassing prior state-of-the-art, with minimal forgetting on Western-centric benchmarks. We further investigate task arithmetic, an alternative approach to multi-cultural adaptation that merges single-culture adapted models in the weight space. Task arithmetic performs on par with our multi-culturally trained model on non-Western auto-tagging tasks and shows no regression on Western datasets. Cross-cultural evaluation reveals that single-culture models transfer with varying effectiveness across musical traditions, whereas the multi-culturally adapted model achieves the best overall performance. To support research on world music representation learning, we publicly release CultureMERT-95M and CultureMERT-TA-95M, fostering the development of more culturally aware music foundation models.

CultureMERT: Kontinuierliches Vor-Training für interkulturelle Musikrepräsentationslernverfahren

CultureMERT: Continual Pre-Training for Cross-Cultural Music Representation Learning

papers.abstract

Support