CLaMP 3: Recupero Universale delle Informazioni Musicali Attraverso Modalità Non Allineate e Lingue Non Viste
CLaMP 3: Universal Music Information Retrieval Across Unaligned Modalities and Unseen Languages
February 14, 2025
Autori: Shangda Wu, Zhancheng Guo, Ruibin Yuan, Junyan Jiang, Seungheon Doh, Gus Xia, Juhan Nam, Xiaobing Li, Feng Yu, Maosong Sun
cs.AI
Abstract
CLaMP 3 è un framework unificato sviluppato per affrontare le sfide della generalizzazione cross-modale e cross-linguistica nel recupero delle informazioni musicali. Utilizzando l'apprendimento contrastivo, allinea tutte le principali modalità musicali—inclusi spartiti, segnali di esecuzione e registrazioni audio—con testi multilingue in uno spazio di rappresentazione condiviso, consentendo il recupero attraverso modalità non allineate utilizzando il testo come ponte. Presenta un codificatore di testo multilingue adattabile a lingue non viste, dimostrando una forte generalizzazione cross-linguistica. Sfruttando la generazione aumentata dal recupero, abbiamo curato M4-RAG, un dataset su scala web composto da 2,31 milioni di coppie musica-testo. Questo dataset è arricchito con metadati dettagliati che rappresentano un'ampia gamma di tradizioni musicali globali. Per promuovere la ricerca futura, rilasciamo WikiMT-X, un benchmark che comprende 1.000 triplette di spartiti, audio e descrizioni testuali ricche e variegate. Gli esperimenti dimostrano che CLaMP 3 raggiunge prestazioni all'avanguardia in molteplici task di MIR, superando significativamente precedenti baseline robuste e mostrando un'eccellente generalizzazione in contesti musicali multimodali e multilingue.
English
CLaMP 3 is a unified framework developed to address challenges of cross-modal
and cross-lingual generalization in music information retrieval. Using
contrastive learning, it aligns all major music modalities--including sheet
music, performance signals, and audio recordings--with multilingual text in a
shared representation space, enabling retrieval across unaligned modalities
with text as a bridge. It features a multilingual text encoder adaptable to
unseen languages, exhibiting strong cross-lingual generalization. Leveraging
retrieval-augmented generation, we curated M4-RAG, a web-scale dataset
consisting of 2.31 million music-text pairs. This dataset is enriched with
detailed metadata that represents a wide array of global musical traditions. To
advance future research, we release WikiMT-X, a benchmark comprising 1,000
triplets of sheet music, audio, and richly varied text descriptions.
Experiments show that CLaMP 3 achieves state-of-the-art performance on multiple
MIR tasks, significantly surpassing previous strong baselines and demonstrating
excellent generalization in multimodal and multilingual music contexts.Summary
AI-Generated Summary