CLaMP 3: Universelle Musikinformationsgewinnung über nicht ausgerichtete Modalitäten und unbekannte Sprachen
CLaMP 3: Universal Music Information Retrieval Across Unaligned Modalities and Unseen Languages
February 14, 2025
Autoren: Shangda Wu, Zhancheng Guo, Ruibin Yuan, Junyan Jiang, Seungheon Doh, Gus Xia, Juhan Nam, Xiaobing Li, Feng Yu, Maosong Sun
cs.AI
Zusammenfassung
CLaMP 3 ist ein einheitliches Framework, das entwickelt wurde, um die Herausforderungen der cross-modalen und cross-lingualen Generalisierung in der Musikinformationsgewinnung zu bewältigen. Mithilfe von kontrastivem Lernen werden alle wichtigen Musikmodalitäten – einschließlich Noten, Performancesignale und Audioaufnahmen – mit mehrsprachigem Text in einem gemeinsamen Repräsentationsraum ausgerichtet, wodurch die Suche über nicht ausgerichtete Modalitäten mit Text als Brücke ermöglicht wird. Es verfügt über einen mehrsprachigen Text-Encoder, der an unbekannte Sprachen anpassbar ist und eine starke cross-linguale Generalisierung zeigt. Durch die Nutzung von retrieval-augmentierter Generierung haben wir M4-RAG kuratiert, einen web-skaligen Datensatz, der aus 2,31 Millionen Musik-Text-Paaren besteht. Dieser Datensatz ist mit detaillierten Metadaten angereichert, die eine breite Palette globaler Musiktraditionen repräsentieren. Um zukünftige Forschung voranzutreiben, veröffentlichen wir WikiMT-X, einen Benchmark, der 1.000 Tripel aus Noten, Audio und vielfältigen Textbeschreibungen umfasst. Experimente zeigen, dass CLaMP 3 bei mehreren MIR-Aufgaben Spitzenleistungen erzielt, bisherige starke Baselines deutlich übertrifft und eine hervorragende Generalisierung in multimodalen und mehrsprachigen Musikkontexten demonstriert.
English
CLaMP 3 is a unified framework developed to address challenges of cross-modal
and cross-lingual generalization in music information retrieval. Using
contrastive learning, it aligns all major music modalities--including sheet
music, performance signals, and audio recordings--with multilingual text in a
shared representation space, enabling retrieval across unaligned modalities
with text as a bridge. It features a multilingual text encoder adaptable to
unseen languages, exhibiting strong cross-lingual generalization. Leveraging
retrieval-augmented generation, we curated M4-RAG, a web-scale dataset
consisting of 2.31 million music-text pairs. This dataset is enriched with
detailed metadata that represents a wide array of global musical traditions. To
advance future research, we release WikiMT-X, a benchmark comprising 1,000
triplets of sheet music, audio, and richly varied text descriptions.
Experiments show that CLaMP 3 achieves state-of-the-art performance on multiple
MIR tasks, significantly surpassing previous strong baselines and demonstrating
excellent generalization in multimodal and multilingual music contexts.Summary
AI-Generated Summary