ChatPaper.aiChatPaper

CultureMERT: 크로스컬처 음악 표현 학습을 위한 지속적 사전 학습

CultureMERT: Continual Pre-Training for Cross-Cultural Music Representation Learning

June 21, 2025
저자: Angelos-Nikolaos Kanatas, Charilaos Papaioannou, Alexandros Potamianos
cs.AI

초록

최근 음악 파운데이션 모델의 발전으로 오디오 표현 학습이 개선되었지만, 다양한 음악 전통에 대한 효과성은 여전히 제한적입니다. 우리는 크로스컬처 음악 표현 학습과 이해를 향상시키기 위해 개발된 다문화 적응형 파운데이션 모델인 CultureMERT-95M을 소개합니다. 이를 위해, 제한된 계산 자원에서도 안정적인 적응을 가능하게 하는 학습률 재가열(re-warming) 및 재감소(re-decaying)를 통합한 두 단계의 지속적 사전 학습 전략을 제안합니다. 그리스, 터키, 인도 음악 전통을 포함한 650시간 분량의 다문화 데이터 믹스로 학습한 결과, 다양한 비서구 음악 자동 태깅 작업에서 ROC-AUC와 AP가 평균 4.9% 향상되었으며, 서구 중심 벤치마크에서의 망각 현상을 최소화하면서 기존 최첨단 기술을 능가했습니다. 또한, 단일 문화 적응 모델을 가중치 공간에서 병합하는 다문화 적응의 대안적 접근법인 작업 산술(task arithmetic)을 조사했습니다. 작업 산술은 비서구 자동 태깅 작업에서 우리의 다문화 학습 모델과 동등한 성능을 보였으며, 서구 데이터셋에서도 성능 저하가 없었습니다. 크로스컬처 평가 결과, 단일 문화 모델은 음악 전통 간에 다양한 효과성을 보이는 반면, 다문화 적응 모델은 전반적으로 최고의 성능을 달성했습니다. 세계 음악 표현 학습 연구를 지원하기 위해, 우리는 CultureMERT-95M과 CultureMERT-TA-95M을 공개하여 더 문화적으로 인식된 음악 파운데이션 모델의 개발을 촉진합니다.
English
Recent advances in music foundation models have improved audio representation learning, yet their effectiveness across diverse musical traditions remains limited. We introduce CultureMERT-95M, a multi-culturally adapted foundation model developed to enhance cross-cultural music representation learning and understanding. To achieve this, we propose a two-stage continual pre-training strategy that integrates learning rate re-warming and re-decaying, enabling stable adaptation even with limited computational resources. Training on a 650-hour multi-cultural data mix, comprising Greek, Turkish, and Indian music traditions, results in an average improvement of 4.9% in ROC-AUC and AP across diverse non-Western music auto-tagging tasks, surpassing prior state-of-the-art, with minimal forgetting on Western-centric benchmarks. We further investigate task arithmetic, an alternative approach to multi-cultural adaptation that merges single-culture adapted models in the weight space. Task arithmetic performs on par with our multi-culturally trained model on non-Western auto-tagging tasks and shows no regression on Western datasets. Cross-cultural evaluation reveals that single-culture models transfer with varying effectiveness across musical traditions, whereas the multi-culturally adapted model achieves the best overall performance. To support research on world music representation learning, we publicly release CultureMERT-95M and CultureMERT-TA-95M, fostering the development of more culturally aware music foundation models.
PDF31June 24, 2025