MERIT: Обучение разделенным музыкальным представлениям для аудиосходства

Аннотация

Текущие модели сходства музыки, как правило, вычисляют единую монолитную оценку, связывая воедино различные музыкальные измерения, такие как мелодия, ритм и тембр. Это ограничивает возможности управления и интерпретируемости со стороны пользователя, делая невозможным выполнение тонких запросов. Мы представляем MERIT — фреймворк для обучения разделенных факторно-специфических представлений музыки, адаптированных к указанным трем основным измерениям. Для преодоления отсутствия изолированных музыкальных вариаций в реальном аудио мы используем новую стратегию обучения, которая применяет условную генерацию аудио и разделенные по источникам стеймы, чтобы активно стимулировать вариации по одному фактору в обучающих данных. Наши оценки демонстрируют сильное разделение по факторам. Каждая голова реагирует в первую очередь на соответствующее перцептивное измерение, оставаясь при этом почти на уровне случайного угадывания в отношении других, — свойство представлений, которое сохраняется как в синтетической области обучения, так и в независимом реальном аудио.

English

Current music similarity models typically compute a single, monolithic score, entangling distinct musical dimensions like melody, rhythm, and timbre. This limits user control and interpretability, making it impossible to execute nuanced queries. We introduce MERIT, a framework for learning disentangled, factor-specific music representations tailored to these three core dimensions. To overcome the lack of isolated musical variations in real-world audio, we use a novel training strategy that uses conditional audio generation and source-separated stems to strongly encourage single-factor variation in training data. Our evaluations demonstrate strong factor-wise disentanglement. Each head responds strongly to its intended perceptual dimension while remaining near chance on the others, a representational property that holds across both the synthetic training domain and independent real-world audio.