MERT: Modelo de Compreensão Musical Acústica com Treinamento Autossupervisionado em Larga Escala
MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training
May 31, 2023
Autores: Yizhi Li, Ruibin Yuan, Ge Zhang, Yinghao Ma, Xingran Chen, Hanzhi Yin, Chenghua Lin, Anton Ragni, Emmanouil Benetos, Norbert Gyenge, Roger Dannenberg, Ruibo Liu, Wenhu Chen, Gus Xia, Yemin Shi, Wenhao Huang, Yike Guo, Jie Fu
cs.AI
Resumo
O aprendizado auto-supervisionado (SSL, do inglês Self-Supervised Learning) surgiu recentemente como um paradigma promissor para treinar modelos generalizáveis em dados em larga escala nas áreas de visão, texto e fala. Embora o SSL tenha se mostrado eficaz em fala e áudio, sua aplicação em áudio musical ainda não foi amplamente explorada. Isso se deve principalmente aos desafios distintos associados à modelagem do conhecimento musical, particularmente suas características tonais e de afinação. Para abordar essa lacuna de pesquisa, propomos um modelo de Compreensão Musical Acústica com Treinamento Auto-Supervisionado em Larga Escala (MERT, do inglês Music undERstanding model with large-scale self-supervised Training), que incorpora modelos professores para fornecer rótulos pseudo no pré-treinamento acústico no estilo de modelagem de linguagem mascarada (MLM, do inglês Masked Language Modelling). Em nossa exploração, identificamos uma combinação superior de modelos professores, que supera abordagens convencionais de fala e áudio em termos de desempenho. Essa combinação inclui um professor acústico baseado em Autoencoder Variacional com Quantização Vetorial Residual (RVQ-VAE, do inglês Residual Vector Quantization - Variational AutoEncoder) e um professor musical baseado na Transformada Constante-Q (CQT, do inglês Constant-Q Transform). Esses professores orientam efetivamente nosso modelo estudante, um codificador transformador no estilo BERT, a modelar melhor o áudio musical. Além disso, introduzimos uma técnica de aumento de dados com mistura de ruído intra-lote para aprimorar a robustez das representações. Adicionalmente, exploramos uma ampla gama de configurações para superar a instabilidade no pré-treinamento de modelos de linguagem acústica, o que permite que nosso paradigma projetado escale de 95 milhões para 330 milhões de parâmetros. Resultados experimentais indicam que nosso modelo pode generalizar e ter um bom desempenho em 14 tarefas de compreensão musical, alcançando pontuações gerais de estado da arte (SOTA, do inglês State-Of-The-Art). O código e os modelos estão disponíveis online: https://github.com/yizhilll/MERT.
English
Self-supervised learning (SSL) has recently emerged as a promising paradigm
for training generalisable models on large-scale data in the fields of vision,
text, and speech. Although SSL has been proven effective in speech and audio,
its application to music audio has yet to be thoroughly explored. This is
primarily due to the distinctive challenges associated with modelling musical
knowledge, particularly its tonal and pitched characteristics of music. To
address this research gap, we propose an acoustic Music undERstanding model
with large-scale self-supervised Training (MERT), which incorporates teacher
models to provide pseudo labels in the masked language modelling (MLM) style
acoustic pre-training. In our exploration, we identified a superior combination
of teacher models, which outperforms conventional speech and audio approaches
in terms of performance. This combination includes an acoustic teacher based on
Residual Vector Quantization - Variational AutoEncoder (RVQ-VAE) and a musical
teacher based on the Constant-Q Transform (CQT). These teachers effectively
guide our student model, a BERT-style transformer encoder, to better model
music audio. In addition, we introduce an in-batch noise mixture augmentation
to enhance the representation robustness. Furthermore, we explore a wide range
of settings to overcome the instability in acoustic language model
pre-training, which allows our designed paradigm to scale from 95M to 330M
parameters. Experimental results indicate that our model can generalise and
perform well on 14 music understanding tasks and attains state-of-the-art
(SOTA) overall scores. The code and models are online:
https://github.com/yizhilll/MERT.