CLaMP 3: Recuperação Universal de Informação Musical em Modalidades Não Alinhadas e Idiomas Não Vistos
CLaMP 3: Universal Music Information Retrieval Across Unaligned Modalities and Unseen Languages
February 14, 2025
Autores: Shangda Wu, Zhancheng Guo, Ruibin Yuan, Junyan Jiang, Seungheon Doh, Gus Xia, Juhan Nam, Xiaobing Li, Feng Yu, Maosong Sun
cs.AI
Resumo
O CLaMP 3 é um framework unificado desenvolvido para enfrentar os desafios da generalização multimodal e multilingue na recuperação de informações musicais. Utilizando aprendizado contrastivo, ele alinha todas as principais modalidades musicais—incluindo partituras, sinais de performance e gravações de áudio—com texto multilingue em um espaço de representação compartilhado, permitindo a recuperação entre modalidades não alinhadas usando o texto como ponte. Ele apresenta um codificador de texto multilingue adaptável a idiomas não vistos, exibindo uma forte generalização cross-lingual. Aproveitando a geração aumentada por recuperação, criamos o M4-RAG, um conjunto de dados em escala web composto por 2,31 milhões de pares música-texto. Esse conjunto de dados é enriquecido com metadados detalhados que representam uma ampla variedade de tradições musicais globais. Para impulsionar pesquisas futuras, disponibilizamos o WikiMT-X, um benchmark que consiste em 1.000 triplas de partituras, áudio e descrições textuais ricamente variadas. Experimentos mostram que o CLaMP 3 alcança desempenho de ponta em múltiplas tarefas de MIR, superando significativamente baselines anteriores e demonstrando excelente generalização em contextos multimodais e multilingues de música.
English
CLaMP 3 is a unified framework developed to address challenges of cross-modal
and cross-lingual generalization in music information retrieval. Using
contrastive learning, it aligns all major music modalities--including sheet
music, performance signals, and audio recordings--with multilingual text in a
shared representation space, enabling retrieval across unaligned modalities
with text as a bridge. It features a multilingual text encoder adaptable to
unseen languages, exhibiting strong cross-lingual generalization. Leveraging
retrieval-augmented generation, we curated M4-RAG, a web-scale dataset
consisting of 2.31 million music-text pairs. This dataset is enriched with
detailed metadata that represents a wide array of global musical traditions. To
advance future research, we release WikiMT-X, a benchmark comprising 1,000
triplets of sheet music, audio, and richly varied text descriptions.
Experiments show that CLaMP 3 achieves state-of-the-art performance on multiple
MIR tasks, significantly surpassing previous strong baselines and demonstrating
excellent generalization in multimodal and multilingual music contexts.Summary
AI-Generated Summary