ChatPaper.aiChatPaper

CLaMP 3 : Recherche d'informations musicales universelle à travers des modalités non alignées et des langues non vues

CLaMP 3: Universal Music Information Retrieval Across Unaligned Modalities and Unseen Languages

February 14, 2025
Auteurs: Shangda Wu, Zhancheng Guo, Ruibin Yuan, Junyan Jiang, Seungheon Doh, Gus Xia, Juhan Nam, Xiaobing Li, Feng Yu, Maosong Sun
cs.AI

Résumé

CLaMP 3 est un cadre unifié développé pour relever les défis de généralisation croisée modale et linguistique en recherche d'informations musicales. En utilisant l'apprentissage contrastif, il aligne toutes les principales modalités musicales - y compris la partition, les signaux de performance et les enregistrements audio - avec du texte multilingue dans un espace de représentation partagé, permettant la recherche à travers des modalités non alignées avec le texte comme pont. Il présente un encodeur de texte multilingue adaptable à des langues non vues, montrant une forte généralisation croisée linguistique. En exploitant la génération augmentée par recherche, nous avons créé M4-RAG, un ensemble de données à grande échelle sur le web composé de 2,31 millions de paires musique-texte. Cet ensemble de données est enrichi de métadonnées détaillées représentant un large éventail de traditions musicales mondiales. Pour faire avancer la recherche future, nous publions WikiMT-X, un banc d'essai comprenant 1 000 triplets de partition, audio et descriptions textuelles variées et riches. Les expériences montrent que CLaMP 3 atteint des performances de pointe sur plusieurs tâches de recherche d'informations musicales, dépassant significativement les baselines solides précédentes et démontrant une excellente généralisation dans des contextes musicaux multimodaux et multilingues.
English
CLaMP 3 is a unified framework developed to address challenges of cross-modal and cross-lingual generalization in music information retrieval. Using contrastive learning, it aligns all major music modalities--including sheet music, performance signals, and audio recordings--with multilingual text in a shared representation space, enabling retrieval across unaligned modalities with text as a bridge. It features a multilingual text encoder adaptable to unseen languages, exhibiting strong cross-lingual generalization. Leveraging retrieval-augmented generation, we curated M4-RAG, a web-scale dataset consisting of 2.31 million music-text pairs. This dataset is enriched with detailed metadata that represents a wide array of global musical traditions. To advance future research, we release WikiMT-X, a benchmark comprising 1,000 triplets of sheet music, audio, and richly varied text descriptions. Experiments show that CLaMP 3 achieves state-of-the-art performance on multiple MIR tasks, significantly surpassing previous strong baselines and demonstrating excellent generalization in multimodal and multilingual music contexts.

Summary

AI-Generated Summary

PDF42February 17, 2025