ChatPaper.aiChatPaper

CLaMP 3: Universele Muziekinformatie-opsporing over niet-uitgelijnde modaliteiten en onbekende talen

CLaMP 3: Universal Music Information Retrieval Across Unaligned Modalities and Unseen Languages

February 14, 2025
Auteurs: Shangda Wu, Zhancheng Guo, Ruibin Yuan, Junyan Jiang, Seungheon Doh, Gus Xia, Juhan Nam, Xiaobing Li, Feng Yu, Maosong Sun
cs.AI

Samenvatting

CLaMP 3 is een uniform raamwerk ontwikkeld om de uitdagingen van cross-modale en cross-linguale generalisatie in muziekinformatie-retrieval aan te pakken. Door gebruik te maken van contrastief leren, brengt het alle belangrijke muziekmodaliteiten—waaronder bladmuziek, uitvoeringssignalen en audio-opnames—in lijn met meertalige tekst in een gedeelde representatieruimte, waardoor retrievel mogelijk wordt over niet-uitgelijnde modaliteiten met tekst als brug. Het beschikt over een meertalige tekstencoder die aanpasbaar is voor onbekende talen en sterke cross-linguale generalisatie vertoont. Door gebruik te maken van retrieval-augmented generation, hebben we M4-RAG samengesteld, een web-schaal dataset bestaande uit 2,31 miljoen muziek-tekst paren. Deze dataset is verrijkt met gedetailleerde metadata die een breed scala aan wereldwijde muziektradities vertegenwoordigen. Om toekomstig onderzoek te bevorderen, brengen we WikiMT-X uit, een benchmark bestaande uit 1000 tripletten van bladmuziek, audio en rijk gevarieerde tekstbeschrijvingen. Experimenten tonen aan dat CLaMP 3 state-of-the-art prestaties behaalt op meerdere MIR-taken, waarbij het eerdere sterke baselines aanzienlijk overtreft en uitstekende generalisatie toont in multimodale en meertalige muziekcontexten.
English
CLaMP 3 is a unified framework developed to address challenges of cross-modal and cross-lingual generalization in music information retrieval. Using contrastive learning, it aligns all major music modalities--including sheet music, performance signals, and audio recordings--with multilingual text in a shared representation space, enabling retrieval across unaligned modalities with text as a bridge. It features a multilingual text encoder adaptable to unseen languages, exhibiting strong cross-lingual generalization. Leveraging retrieval-augmented generation, we curated M4-RAG, a web-scale dataset consisting of 2.31 million music-text pairs. This dataset is enriched with detailed metadata that represents a wide array of global musical traditions. To advance future research, we release WikiMT-X, a benchmark comprising 1,000 triplets of sheet music, audio, and richly varied text descriptions. Experiments show that CLaMP 3 achieves state-of-the-art performance on multiple MIR tasks, significantly surpassing previous strong baselines and demonstrating excellent generalization in multimodal and multilingual music contexts.

Summary

AI-Generated Summary

PDF42February 17, 2025