CLaMP 3: Recupero Universale delle Informazioni Musicali Attraverso Modalità Non Allineate e Lingue Non Viste

Abstract

CLaMP 3 è un framework unificato sviluppato per affrontare le sfide della generalizzazione cross-modale e cross-linguistica nel recupero delle informazioni musicali. Utilizzando l'apprendimento contrastivo, allinea tutte le principali modalità musicali—inclusi spartiti, segnali di esecuzione e registrazioni audio—con testi multilingue in uno spazio di rappresentazione condiviso, consentendo il recupero attraverso modalità non allineate utilizzando il testo come ponte. Presenta un codificatore di testo multilingue adattabile a lingue non viste, dimostrando una forte generalizzazione cross-linguistica. Sfruttando la generazione aumentata dal recupero, abbiamo curato M4-RAG, un dataset su scala web composto da 2,31 milioni di coppie musica-testo. Questo dataset è arricchito con metadati dettagliati che rappresentano un'ampia gamma di tradizioni musicali globali. Per promuovere la ricerca futura, rilasciamo WikiMT-X, un benchmark che comprende 1.000 triplette di spartiti, audio e descrizioni testuali ricche e variegate. Gli esperimenti dimostrano che CLaMP 3 raggiunge prestazioni all'avanguardia in molteplici task di MIR, superando significativamente precedenti baseline robuste e mostrando un'eccellente generalizzazione in contesti musicali multimodali e multilingue.

English

CLaMP 3 is a unified framework developed to address challenges of cross-modal and cross-lingual generalization in music information retrieval. Using contrastive learning, it aligns all major music modalities--including sheet music, performance signals, and audio recordings--with multilingual text in a shared representation space, enabling retrieval across unaligned modalities with text as a bridge. It features a multilingual text encoder adaptable to unseen languages, exhibiting strong cross-lingual generalization. Leveraging retrieval-augmented generation, we curated M4-RAG, a web-scale dataset consisting of 2.31 million music-text pairs. This dataset is enriched with detailed metadata that represents a wide array of global musical traditions. To advance future research, we release WikiMT-X, a benchmark comprising 1,000 triplets of sheet music, audio, and richly varied text descriptions. Experiments show that CLaMP 3 achieves state-of-the-art performance on multiple MIR tasks, significantly surpassing previous strong baselines and demonstrating excellent generalization in multimodal and multilingual music contexts.

CLaMP 3: Recupero Universale delle Informazioni Musicali Attraverso Modalità Non Allineate e Lingue Non Viste

CLaMP 3: Universal Music Information Retrieval Across Unaligned Modalities and Unseen Languages

Abstract

Support