CultureMERT: Kontinuierliches Vor-Training für interkulturelle Musikrepräsentationslernverfahren
CultureMERT: Continual Pre-Training for Cross-Cultural Music Representation Learning
June 21, 2025
Autoren: Angelos-Nikolaos Kanatas, Charilaos Papaioannou, Alexandros Potamianos
cs.AI
Zusammenfassung
Jüngste Fortschritte in Musik-Foundation-Modellen haben das Lernen von Audio-Repräsentationen verbessert, doch ihre Wirksamkeit über verschiedene musikalische Traditionen hinweg bleibt begrenzt. Wir stellen CultureMERT-95M vor, ein multikulturell angepasstes Foundation-Modell, das entwickelt wurde, um das Lernen und Verstehen von musikalischen Repräsentationen über kulturelle Grenzen hinweg zu verbessern. Um dies zu erreichen, schlagen wir eine zweistufige kontinuierliche Vorab-Trainingsstrategie vor, die die Neuerwärmung und das erneute Abklingen der Lernrate integriert, wodurch eine stabile Anpassung auch bei begrenzten Rechenressourcen ermöglicht wird. Das Training auf einem 650-stündigen multikulturellen Datensatz, der griechische, türkische und indische Musiktraditionen umfasst, führt zu einer durchschnittlichen Verbesserung von 4,9 % in ROC-AUC und AP über verschiedene nicht-westliche Musik-Auto-Tagging-Aufgaben hinweg und übertrifft damit den bisherigen Stand der Technik, wobei gleichzeitig das Vergessen auf westlich zentrierten Benchmarks minimal bleibt. Wir untersuchen weiterhin Task-Arithmetik, einen alternativen Ansatz zur multikulturellen Anpassung, der einzelkulturell angepasste Modelle im Gewichtsraum zusammenführt. Task-Arithmetik schneidet bei nicht-westlichen Auto-Tagging-Aufgaben ebenso gut ab wie unser multikulturell trainiertes Modell und zeigt keine Regression auf westlichen Datensätzen. Die interkulturelle Auswertung zeigt, dass einzelkulturelle Modelle mit unterschiedlicher Effektivität über musikalische Traditionen hinweg übertragen werden, während das multikulturell angepasste Modell die beste Gesamtleistung erzielt. Um die Forschung zum Lernen von Repräsentationen weltweiter Musik zu unterstützen, veröffentlichen wir CultureMERT-95M und CultureMERT-TA-95M öffentlich und fördern so die Entwicklung von kulturell bewussteren Musik-Foundation-Modellen.
English
Recent advances in music foundation models have improved audio representation
learning, yet their effectiveness across diverse musical traditions remains
limited. We introduce CultureMERT-95M, a multi-culturally adapted foundation
model developed to enhance cross-cultural music representation learning and
understanding. To achieve this, we propose a two-stage continual pre-training
strategy that integrates learning rate re-warming and re-decaying, enabling
stable adaptation even with limited computational resources. Training on a
650-hour multi-cultural data mix, comprising Greek, Turkish, and Indian music
traditions, results in an average improvement of 4.9% in ROC-AUC and AP across
diverse non-Western music auto-tagging tasks, surpassing prior
state-of-the-art, with minimal forgetting on Western-centric benchmarks. We
further investigate task arithmetic, an alternative approach to multi-cultural
adaptation that merges single-culture adapted models in the weight space. Task
arithmetic performs on par with our multi-culturally trained model on
non-Western auto-tagging tasks and shows no regression on Western datasets.
Cross-cultural evaluation reveals that single-culture models transfer with
varying effectiveness across musical traditions, whereas the multi-culturally
adapted model achieves the best overall performance. To support research on
world music representation learning, we publicly release CultureMERT-95M and
CultureMERT-TA-95M, fostering the development of more culturally aware music
foundation models.