MERT: Model voor Acoustisch Muziekbegrip met Grootschalige Zelfgesuperviseerde Training
MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training
May 31, 2023
Auteurs: Yizhi Li, Ruibin Yuan, Ge Zhang, Yinghao Ma, Xingran Chen, Hanzhi Yin, Chenghua Lin, Anton Ragni, Emmanouil Benetos, Norbert Gyenge, Roger Dannenberg, Ruibo Liu, Wenhu Chen, Gus Xia, Yemin Shi, Wenhao Huang, Yike Guo, Jie Fu
cs.AI
Samenvatting
Zelfgesuperviseerd leren (SSL) is recent naar voren gekomen als een veelbelovend paradigma voor het trainen van generaliseerbare modellen op grootschalige data in de domeinen van visie, tekst en spraak. Hoewel SSL effectief is gebleken voor spraak en audio, is de toepassing ervan op muziekaudio nog niet grondig onderzocht. Dit komt voornamelijk door de unieke uitdagingen die gepaard gaan met het modelleren van muzikale kennis, met name de tonale en toonhoogtegerelateerde kenmerken van muziek. Om dit onderzoeksgat te dichten, stellen we een akoestisch Music undERstanding model voor met grootschalig zelfgesuperviseerde training (MERT), dat gebruikmaakt van leraarmodellen om pseudo-labels te leveren in de akoestische voorbereiding in de stijl van gemaskeerde taalmodellering (MLM). In ons onderzoek hebben we een superieure combinatie van leraarmodellen geïdentificeerd, die conventionele benaderingen voor spraak en audio overtreft wat betreft prestaties. Deze combinatie omvat een akoestische leraar gebaseerd op Residual Vector Quantization - Variational AutoEncoder (RVQ-VAE) en een muzikale leraar gebaseerd op de Constant-Q Transform (CQT). Deze leraren begeleiden ons studentmodel, een BERT-stijl transformercodering, effectief om muziekaudio beter te modelleren. Daarnaast introduceren we een in-batch ruismengselaugmentatie om de robuustheid van de representatie te verbeteren. Verder verkennen we een breed scala aan instellingen om de instabiliteit in de voorbereiding van akoestische taalmodellen te overwinnen, waardoor ons ontworpen paradigma kan schalen van 95M naar 330M parameters. Experimentele resultaten tonen aan dat ons model kan generaliseren en goed presteert op 14 muziekbegriptaken en state-of-the-art (SOTA) overall scores behaalt. De code en modellen zijn online beschikbaar: https://github.com/yizhilll/MERT.
English
Self-supervised learning (SSL) has recently emerged as a promising paradigm
for training generalisable models on large-scale data in the fields of vision,
text, and speech. Although SSL has been proven effective in speech and audio,
its application to music audio has yet to be thoroughly explored. This is
primarily due to the distinctive challenges associated with modelling musical
knowledge, particularly its tonal and pitched characteristics of music. To
address this research gap, we propose an acoustic Music undERstanding model
with large-scale self-supervised Training (MERT), which incorporates teacher
models to provide pseudo labels in the masked language modelling (MLM) style
acoustic pre-training. In our exploration, we identified a superior combination
of teacher models, which outperforms conventional speech and audio approaches
in terms of performance. This combination includes an acoustic teacher based on
Residual Vector Quantization - Variational AutoEncoder (RVQ-VAE) and a musical
teacher based on the Constant-Q Transform (CQT). These teachers effectively
guide our student model, a BERT-style transformer encoder, to better model
music audio. In addition, we introduce an in-batch noise mixture augmentation
to enhance the representation robustness. Furthermore, we explore a wide range
of settings to overcome the instability in acoustic language model
pre-training, which allows our designed paradigm to scale from 95M to 330M
parameters. Experimental results indicate that our model can generalise and
perform well on 14 music understanding tasks and attains state-of-the-art
(SOTA) overall scores. The code and models are online:
https://github.com/yizhilll/MERT.