CLaMP 3: アラインされていないモダリティと未知の言語を横断する汎用音楽情報検索
CLaMP 3: Universal Music Information Retrieval Across Unaligned Modalities and Unseen Languages
February 14, 2025
著者: Shangda Wu, Zhancheng Guo, Ruibin Yuan, Junyan Jiang, Seungheon Doh, Gus Xia, Juhan Nam, Xiaobing Li, Feng Yu, Maosong Sun
cs.AI
要旨
CLaMP 3は、音楽情報検索におけるクロスモーダルおよびクロス言語の一般化の課題に対処するために開発された統合フレームワークです。コントラスティブ学習を使用して、楽譜、演奏信号、オーディオ録音などの主要な音楽モダリティをすべて、多言語テキストと共有表現空間に整列させ、テキストを橋として非整列のモダリティ間で検索を可能にします。未知の言語に適応可能な多言語テキストエンコーダを特徴とし、強力なクロス言語の一般化を示します。検索増強生成を活用して、2.31百万の音楽テキストペアからなるWebスケールのデータセットであるM4-RAGをキュレーションしました。このデータセットは、幅広い世界の音楽伝統を表す詳細なメタデータで充実しています。将来の研究を推進するために、シートミュージック、オーディオ、多様なテキスト記述からなる1,000の三つ組を含むベンチマークであるWikiMT-Xをリリースします。実験結果は、CLaMP 3が複数のMIRタスクで最先端の性能を達成し、以前の強力なベースラインを大幅に上回り、多モーダルおよび多言語の音楽コンテキストで優れた一般化を示すことを示しています。
English
CLaMP 3 is a unified framework developed to address challenges of cross-modal
and cross-lingual generalization in music information retrieval. Using
contrastive learning, it aligns all major music modalities--including sheet
music, performance signals, and audio recordings--with multilingual text in a
shared representation space, enabling retrieval across unaligned modalities
with text as a bridge. It features a multilingual text encoder adaptable to
unseen languages, exhibiting strong cross-lingual generalization. Leveraging
retrieval-augmented generation, we curated M4-RAG, a web-scale dataset
consisting of 2.31 million music-text pairs. This dataset is enriched with
detailed metadata that represents a wide array of global musical traditions. To
advance future research, we release WikiMT-X, a benchmark comprising 1,000
triplets of sheet music, audio, and richly varied text descriptions.
Experiments show that CLaMP 3 achieves state-of-the-art performance on multiple
MIR tasks, significantly surpassing previous strong baselines and demonstrating
excellent generalization in multimodal and multilingual music contexts.Summary
AI-Generated Summary