Multitrack Muziektranscriptie met een Tijd-Frequentie Perceiver
Multitrack Music Transcription with a Time-Frequency Perceiver
June 19, 2023
Auteurs: Wei-Tsung Lu, Ju-Chiang Wang, Yun-Ning Hung
cs.AI
Samenvatting
Multitrack muziektranscriptie heeft als doel een muzikaal audio-input om te zetten in de muzieknoten van meerdere instrumenten tegelijkertijd. Het is een zeer uitdagende taak die doorgaans een complexer model vereist om bevredigende resultaten te behalen. Bovendien richten eerdere werken zich voornamelijk op transcripties van reguliere instrumenten, maar verwaarlozen daarbij vaak de zang, die meestal de belangrijkste signaalbron is als deze aanwezig is in een muziekstuk. In dit artikel stellen we een nieuwe deep neural network-architectuur voor, Perceiver TF, om de tijd-frequentieweergave van audio-input te modelleren voor multitrack-transcriptie. Perceiver TF breidt de Perceiver-architectuur uit door een hiërarchische uitbreiding te introduceren met een extra Transformer-laag om temporele samenhang te modelleren. Ons model erft daardoor de voordelen van Perceiver, die betere schaalbaarheid biedt, waardoor het transcripties van veel instrumenten in een enkel model goed kan verwerken. In experimenten trainen we een Perceiver TF om 12 instrumentklassen en zang te modelleren in een multi-task learning-benadering. Onze resultaten tonen aan dat het voorgestelde systeem de state-of-the-art tegenhangers (bijv. MT3 en SpecTNT) overtreft op verschillende openbare datasets.
English
Multitrack music transcription aims to transcribe a music audio input into
the musical notes of multiple instruments simultaneously. It is a very
challenging task that typically requires a more complex model to achieve
satisfactory result. In addition, prior works mostly focus on transcriptions of
regular instruments, however, neglecting vocals, which are usually the most
important signal source if present in a piece of music. In this paper, we
propose a novel deep neural network architecture, Perceiver TF, to model the
time-frequency representation of audio input for multitrack transcription.
Perceiver TF augments the Perceiver architecture by introducing a hierarchical
expansion with an additional Transformer layer to model temporal coherence.
Accordingly, our model inherits the benefits of Perceiver that posses better
scalability, allowing it to well handle transcriptions of many instruments in a
single model. In experiments, we train a Perceiver TF to model 12 instrument
classes as well as vocal in a multi-task learning manner. Our result
demonstrates that the proposed system outperforms the state-of-the-art
counterparts (e.g., MT3 and SpecTNT) on various public datasets.