CultureMERT: Preentrenamiento Continuo para la Aprendizaje de Representación Musical Transcultural
CultureMERT: Continual Pre-Training for Cross-Cultural Music Representation Learning
June 21, 2025
Autores: Angelos-Nikolaos Kanatas, Charilaos Papaioannou, Alexandros Potamianos
cs.AI
Resumen
Los avances recientes en los modelos fundamentales de música han mejorado el aprendizaje de representaciones de audio, aunque su efectividad en diversas tradiciones musicales sigue siendo limitada. Presentamos CultureMERT-95M, un modelo fundamental adaptado multiculturalmente desarrollado para mejorar el aprendizaje y la comprensión de representaciones musicales transculturales. Para lograrlo, proponemos una estrategia de preentrenamiento continuo en dos etapas que integra el recalentamiento y el redecaimiento de la tasa de aprendizaje, permitiendo una adaptación estable incluso con recursos computacionales limitados. El entrenamiento en una mezcla de datos multiculturales de 650 horas, que incluye tradiciones musicales griegas, turcas e indias, resulta en una mejora promedio del 4,9 % en ROC-AUC y AP en diversas tareas de etiquetado automático de música no occidental, superando los modelos más avanzados anteriores, con un olvido mínimo en los puntos de referencia centrados en la música occidental. Además, investigamos la aritmética de tareas, un enfoque alternativo para la adaptación multicultural que combina modelos adaptados a una sola cultura en el espacio de pesos. La aritmética de tareas tiene un rendimiento similar al de nuestro modelo entrenado multiculturalmente en tareas de etiquetado automático no occidental y no muestra regresión en conjuntos de datos occidentales. La evaluación transcultural revela que los modelos de una sola cultura se transfieren con efectividad variable entre tradiciones musicales, mientras que el modelo adaptado multiculturalmente logra el mejor rendimiento general. Para apoyar la investigación sobre el aprendizaje de representaciones de música mundial, publicamos CultureMERT-95M y CultureMERT-TA-95M, fomentando el desarrollo de modelos fundamentales de música más conscientes culturalmente.
English
Recent advances in music foundation models have improved audio representation
learning, yet their effectiveness across diverse musical traditions remains
limited. We introduce CultureMERT-95M, a multi-culturally adapted foundation
model developed to enhance cross-cultural music representation learning and
understanding. To achieve this, we propose a two-stage continual pre-training
strategy that integrates learning rate re-warming and re-decaying, enabling
stable adaptation even with limited computational resources. Training on a
650-hour multi-cultural data mix, comprising Greek, Turkish, and Indian music
traditions, results in an average improvement of 4.9% in ROC-AUC and AP across
diverse non-Western music auto-tagging tasks, surpassing prior
state-of-the-art, with minimal forgetting on Western-centric benchmarks. We
further investigate task arithmetic, an alternative approach to multi-cultural
adaptation that merges single-culture adapted models in the weight space. Task
arithmetic performs on par with our multi-culturally trained model on
non-Western auto-tagging tasks and shows no regression on Western datasets.
Cross-cultural evaluation reveals that single-culture models transfer with
varying effectiveness across musical traditions, whereas the multi-culturally
adapted model achieves the best overall performance. To support research on
world music representation learning, we publicly release CultureMERT-95M and
CultureMERT-TA-95M, fostering the development of more culturally aware music
foundation models.