MERT: Model voor Acoustisch Muziekbegrip met Grootschalige Zelfgesuperviseerde Training

Samenvatting

Zelfgesuperviseerd leren (SSL) is recent naar voren gekomen als een veelbelovend paradigma voor het trainen van generaliseerbare modellen op grootschalige data in de domeinen van visie, tekst en spraak. Hoewel SSL effectief is gebleken voor spraak en audio, is de toepassing ervan op muziekaudio nog niet grondig onderzocht. Dit komt voornamelijk door de unieke uitdagingen die gepaard gaan met het modelleren van muzikale kennis, met name de tonale en toonhoogtegerelateerde kenmerken van muziek. Om dit onderzoeksgat te dichten, stellen we een akoestisch Music undERstanding model voor met grootschalig zelfgesuperviseerde training (MERT), dat gebruikmaakt van leraarmodellen om pseudo-labels te leveren in de akoestische voorbereiding in de stijl van gemaskeerde taalmodellering (MLM). In ons onderzoek hebben we een superieure combinatie van leraarmodellen geïdentificeerd, die conventionele benaderingen voor spraak en audio overtreft wat betreft prestaties. Deze combinatie omvat een akoestische leraar gebaseerd op Residual Vector Quantization - Variational AutoEncoder (RVQ-VAE) en een muzikale leraar gebaseerd op de Constant-Q Transform (CQT). Deze leraren begeleiden ons studentmodel, een BERT-stijl transformercodering, effectief om muziekaudio beter te modelleren. Daarnaast introduceren we een in-batch ruismengselaugmentatie om de robuustheid van de representatie te verbeteren. Verder verkennen we een breed scala aan instellingen om de instabiliteit in de voorbereiding van akoestische taalmodellen te overwinnen, waardoor ons ontworpen paradigma kan schalen van 95M naar 330M parameters. Experimentele resultaten tonen aan dat ons model kan generaliseren en goed presteert op 14 muziekbegriptaken en state-of-the-art (SOTA) overall scores behaalt. De code en modellen zijn online beschikbaar: https://github.com/yizhilll/MERT.

English

Self-supervised learning (SSL) has recently emerged as a promising paradigm for training generalisable models on large-scale data in the fields of vision, text, and speech. Although SSL has been proven effective in speech and audio, its application to music audio has yet to be thoroughly explored. This is primarily due to the distinctive challenges associated with modelling musical knowledge, particularly its tonal and pitched characteristics of music. To address this research gap, we propose an acoustic Music undERstanding model with large-scale self-supervised Training (MERT), which incorporates teacher models to provide pseudo labels in the masked language modelling (MLM) style acoustic pre-training. In our exploration, we identified a superior combination of teacher models, which outperforms conventional speech and audio approaches in terms of performance. This combination includes an acoustic teacher based on Residual Vector Quantization - Variational AutoEncoder (RVQ-VAE) and a musical teacher based on the Constant-Q Transform (CQT). These teachers effectively guide our student model, a BERT-style transformer encoder, to better model music audio. In addition, we introduce an in-batch noise mixture augmentation to enhance the representation robustness. Furthermore, we explore a wide range of settings to overcome the instability in acoustic language model pre-training, which allows our designed paradigm to scale from 95M to 330M parameters. Experimental results indicate that our model can generalise and perform well on 14 music understanding tasks and attains state-of-the-art (SOTA) overall scores. The code and models are online: https://github.com/yizhilll/MERT.

MERT: Model voor Acoustisch Muziekbegrip met Grootschalige Zelfgesuperviseerde Training

MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training

Samenvatting

Support