CultureMERT: 異文化音楽表現学習のための継続的事前学習
CultureMERT: Continual Pre-Training for Cross-Cultural Music Representation Learning
June 21, 2025
著者: Angelos-Nikolaos Kanatas, Charilaos Papaioannou, Alexandros Potamianos
cs.AI
要旨
音楽基盤モデルの最近の進展により、音響表現学習が向上しているが、多様な音楽伝統における有効性は依然として限定的である。本論文では、異文化間の音楽表現学習と理解を強化するために開発された多文化適応型基盤モデル「CultureMERT-95M」を紹介する。これを実現するため、学習率の再ウォーミングと再ディケイを統合した二段階の継続事前学習戦略を提案し、限られた計算資源でも安定した適応を可能にした。ギリシャ、トルコ、インドの音楽伝統を含む650時間の多文化データミックスで学習を行った結果、非西洋音楽の自動タグ付けタスクにおいてROC-AUCとAPの平均4.9%の改善が達成され、従来の最先端モデルを上回りつつ、西洋中心のベンチマークでの忘却を最小限に抑えた。さらに、重み空間で単一文化適応モデルを統合する多文化適応の代替手法であるタスク算術を調査した。タスク算術は、非西洋の自動タグ付けタスクにおいて多文化学習モデルと同等の性能を示し、西洋データセットでの回帰も見られなかった。異文化間評価では、単一文化モデルが音楽伝統間で異なる効果で転移するのに対し、多文化適応モデルが全体的に最高の性能を達成した。世界音楽表現学習の研究を支援するため、CultureMERT-95MとCultureMERT-TA-95Mを公開し、より文化的に意識された音楽基盤モデルの開発を促進する。
English
Recent advances in music foundation models have improved audio representation
learning, yet their effectiveness across diverse musical traditions remains
limited. We introduce CultureMERT-95M, a multi-culturally adapted foundation
model developed to enhance cross-cultural music representation learning and
understanding. To achieve this, we propose a two-stage continual pre-training
strategy that integrates learning rate re-warming and re-decaying, enabling
stable adaptation even with limited computational resources. Training on a
650-hour multi-cultural data mix, comprising Greek, Turkish, and Indian music
traditions, results in an average improvement of 4.9% in ROC-AUC and AP across
diverse non-Western music auto-tagging tasks, surpassing prior
state-of-the-art, with minimal forgetting on Western-centric benchmarks. We
further investigate task arithmetic, an alternative approach to multi-cultural
adaptation that merges single-culture adapted models in the weight space. Task
arithmetic performs on par with our multi-culturally trained model on
non-Western auto-tagging tasks and shows no regression on Western datasets.
Cross-cultural evaluation reveals that single-culture models transfer with
varying effectiveness across musical traditions, whereas the multi-culturally
adapted model achieves the best overall performance. To support research on
world music representation learning, we publicly release CultureMERT-95M and
CultureMERT-TA-95M, fostering the development of more culturally aware music
foundation models.