MERT: Modelo de Compreensão Musical Acústica com Treinamento Autossupervisionado em Larga Escala

Resumo

O aprendizado auto-supervisionado (SSL, do inglês Self-Supervised Learning) surgiu recentemente como um paradigma promissor para treinar modelos generalizáveis em dados em larga escala nas áreas de visão, texto e fala. Embora o SSL tenha se mostrado eficaz em fala e áudio, sua aplicação em áudio musical ainda não foi amplamente explorada. Isso se deve principalmente aos desafios distintos associados à modelagem do conhecimento musical, particularmente suas características tonais e de afinação. Para abordar essa lacuna de pesquisa, propomos um modelo de Compreensão Musical Acústica com Treinamento Auto-Supervisionado em Larga Escala (MERT, do inglês Music undERstanding model with large-scale self-supervised Training), que incorpora modelos professores para fornecer rótulos pseudo no pré-treinamento acústico no estilo de modelagem de linguagem mascarada (MLM, do inglês Masked Language Modelling). Em nossa exploração, identificamos uma combinação superior de modelos professores, que supera abordagens convencionais de fala e áudio em termos de desempenho. Essa combinação inclui um professor acústico baseado em Autoencoder Variacional com Quantização Vetorial Residual (RVQ-VAE, do inglês Residual Vector Quantization - Variational AutoEncoder) e um professor musical baseado na Transformada Constante-Q (CQT, do inglês Constant-Q Transform). Esses professores orientam efetivamente nosso modelo estudante, um codificador transformador no estilo BERT, a modelar melhor o áudio musical. Além disso, introduzimos uma técnica de aumento de dados com mistura de ruído intra-lote para aprimorar a robustez das representações. Adicionalmente, exploramos uma ampla gama de configurações para superar a instabilidade no pré-treinamento de modelos de linguagem acústica, o que permite que nosso paradigma projetado escale de 95 milhões para 330 milhões de parâmetros. Resultados experimentais indicam que nosso modelo pode generalizar e ter um bom desempenho em 14 tarefas de compreensão musical, alcançando pontuações gerais de estado da arte (SOTA, do inglês State-Of-The-Art). O código e os modelos estão disponíveis online: https://github.com/yizhilll/MERT.

English

Self-supervised learning (SSL) has recently emerged as a promising paradigm for training generalisable models on large-scale data in the fields of vision, text, and speech. Although SSL has been proven effective in speech and audio, its application to music audio has yet to be thoroughly explored. This is primarily due to the distinctive challenges associated with modelling musical knowledge, particularly its tonal and pitched characteristics of music. To address this research gap, we propose an acoustic Music undERstanding model with large-scale self-supervised Training (MERT), which incorporates teacher models to provide pseudo labels in the masked language modelling (MLM) style acoustic pre-training. In our exploration, we identified a superior combination of teacher models, which outperforms conventional speech and audio approaches in terms of performance. This combination includes an acoustic teacher based on Residual Vector Quantization - Variational AutoEncoder (RVQ-VAE) and a musical teacher based on the Constant-Q Transform (CQT). These teachers effectively guide our student model, a BERT-style transformer encoder, to better model music audio. In addition, we introduce an in-batch noise mixture augmentation to enhance the representation robustness. Furthermore, we explore a wide range of settings to overcome the instability in acoustic language model pre-training, which allows our designed paradigm to scale from 95M to 330M parameters. Experimental results indicate that our model can generalise and perform well on 14 music understanding tasks and attains state-of-the-art (SOTA) overall scores. The code and models are online: https://github.com/yizhilll/MERT.

MERT: Modelo de Compreensão Musical Acústica com Treinamento Autossupervisionado em Larga Escala

MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training

Resumo

Support