MERIT: Aprendendo Representações Musicais Desembaraçadas para Similaridade de Áudio

Resumo

Os modelos atuais de similaridade musical geralmente calculam uma única pontuação monolítica, entrelaçando dimensões musicais distintas, como melodia, ritmo e timbre. Isso limita o controle e a interpretabilidade do usuário, impossibilitando a execução de consultas diferenciadas. Apresentamos o MERIT, uma estrutura para aprender representações musicais desembaraçadas e específicas de fator, adaptadas a essas três dimensões centrais. Para superar a falta de variações musicais isoladas em áudio do mundo real, utilizamos uma estratégia de treinamento inovadora que emprega geração condicional de áudio e stems separados por fonte para estimular fortemente a variação de um único fator nos dados de treinamento. Nossas avaliações demonstram um forte desembaraçamento fatorial. Cada cabeça responde fortemente à sua dimensão perceptual pretendida, enquanto permanece próximo ao acaso nas demais – uma propriedade representacional que se mantém tanto no domínio de treinamento sintético quanto em áudio independente do mundo real.

English

Current music similarity models typically compute a single, monolithic score, entangling distinct musical dimensions like melody, rhythm, and timbre. This limits user control and interpretability, making it impossible to execute nuanced queries. We introduce MERIT, a framework for learning disentangled, factor-specific music representations tailored to these three core dimensions. To overcome the lack of isolated musical variations in real-world audio, we use a novel training strategy that uses conditional audio generation and source-separated stems to strongly encourage single-factor variation in training data. Our evaluations demonstrate strong factor-wise disentanglement. Each head responds strongly to its intended perceptual dimension while remaining near chance on the others, a representational property that holds across both the synthetic training domain and independent real-world audio.