CLaMP 3: Universelle Musikinformationsgewinnung über nicht ausgerichtete Modalitäten und unbekannte Sprachen

Zusammenfassung

CLaMP 3 ist ein einheitliches Framework, das entwickelt wurde, um die Herausforderungen der cross-modalen und cross-lingualen Generalisierung in der Musikinformationsgewinnung zu bewältigen. Mithilfe von kontrastivem Lernen werden alle wichtigen Musikmodalitäten – einschließlich Noten, Performancesignale und Audioaufnahmen – mit mehrsprachigem Text in einem gemeinsamen Repräsentationsraum ausgerichtet, wodurch die Suche über nicht ausgerichtete Modalitäten mit Text als Brücke ermöglicht wird. Es verfügt über einen mehrsprachigen Text-Encoder, der an unbekannte Sprachen anpassbar ist und eine starke cross-linguale Generalisierung zeigt. Durch die Nutzung von retrieval-augmentierter Generierung haben wir M4-RAG kuratiert, einen web-skaligen Datensatz, der aus 2,31 Millionen Musik-Text-Paaren besteht. Dieser Datensatz ist mit detaillierten Metadaten angereichert, die eine breite Palette globaler Musiktraditionen repräsentieren. Um zukünftige Forschung voranzutreiben, veröffentlichen wir WikiMT-X, einen Benchmark, der 1.000 Tripel aus Noten, Audio und vielfältigen Textbeschreibungen umfasst. Experimente zeigen, dass CLaMP 3 bei mehreren MIR-Aufgaben Spitzenleistungen erzielt, bisherige starke Baselines deutlich übertrifft und eine hervorragende Generalisierung in multimodalen und mehrsprachigen Musikkontexten demonstriert.

English

CLaMP 3 is a unified framework developed to address challenges of cross-modal and cross-lingual generalization in music information retrieval. Using contrastive learning, it aligns all major music modalities--including sheet music, performance signals, and audio recordings--with multilingual text in a shared representation space, enabling retrieval across unaligned modalities with text as a bridge. It features a multilingual text encoder adaptable to unseen languages, exhibiting strong cross-lingual generalization. Leveraging retrieval-augmented generation, we curated M4-RAG, a web-scale dataset consisting of 2.31 million music-text pairs. This dataset is enriched with detailed metadata that represents a wide array of global musical traditions. To advance future research, we release WikiMT-X, a benchmark comprising 1,000 triplets of sheet music, audio, and richly varied text descriptions. Experiments show that CLaMP 3 achieves state-of-the-art performance on multiple MIR tasks, significantly surpassing previous strong baselines and demonstrating excellent generalization in multimodal and multilingual music contexts.