CLaMP 3: Универсальный поиск информации о музыке через несогласованные модальности и невидимые языки
CLaMP 3: Universal Music Information Retrieval Across Unaligned Modalities and Unseen Languages
February 14, 2025
Авторы: Shangda Wu, Zhancheng Guo, Ruibin Yuan, Junyan Jiang, Seungheon Doh, Gus Xia, Juhan Nam, Xiaobing Li, Feng Yu, Maosong Sun
cs.AI
Аннотация
CLaMP 3 - это унифицированная структура, разработанная для решения проблем кросс-модальной и кросс-языковой обобщения в поиске информации о музыке. С использованием контрастного обучения она выравнивает все основные модальности музыки - включая ноты, сигналы исполнения и аудиозаписи - с многоязычным текстом в общем пространстве представления, обеспечивая поиск по несогласованным модальностям с текстом в качестве моста. Он оснащен многоязычным текстовым кодировщиком, способным адаптироваться к невидимым языкам, проявляя сильное кросс-языковое обобщение. Используя поиск с увеличением поколения, мы создали M4-RAG, набор данных веб-масштаба, состоящий из 2,31 миллиона пар музыка-текст. Этот набор данных обогащен подробной метаданными, представляющими широкий спектр музыкальных традиций мира. Для продвижения будущих исследований мы выпустили WikiMT-X, бенчмарк, включающий 1 000 троек нот, аудио и разнообразных текстовых описаний. Эксперименты показывают, что CLaMP 3 достигает передового уровня производительности в нескольких задачах поиска информации о музыке, значительно превосходя предыдущие сильные базовые уровни и демонстрируя отличное обобщение в мультимодальных и многоязычных музыкальных контекстах.
English
CLaMP 3 is a unified framework developed to address challenges of cross-modal
and cross-lingual generalization in music information retrieval. Using
contrastive learning, it aligns all major music modalities--including sheet
music, performance signals, and audio recordings--with multilingual text in a
shared representation space, enabling retrieval across unaligned modalities
with text as a bridge. It features a multilingual text encoder adaptable to
unseen languages, exhibiting strong cross-lingual generalization. Leveraging
retrieval-augmented generation, we curated M4-RAG, a web-scale dataset
consisting of 2.31 million music-text pairs. This dataset is enriched with
detailed metadata that represents a wide array of global musical traditions. To
advance future research, we release WikiMT-X, a benchmark comprising 1,000
triplets of sheet music, audio, and richly varied text descriptions.
Experiments show that CLaMP 3 achieves state-of-the-art performance on multiple
MIR tasks, significantly surpassing previous strong baselines and demonstrating
excellent generalization in multimodal and multilingual music contexts.Summary
AI-Generated Summary