Trascrizione musicale multitraccia con un Perceiver tempo-frequenza
Multitrack Music Transcription with a Time-Frequency Perceiver
June 19, 2023
Autori: Wei-Tsung Lu, Ju-Chiang Wang, Yun-Ning Hung
cs.AI
Abstract
La trascrizione musicale multitraccia mira a convertire un input audio musicale nelle note musicali di più strumenti simultaneamente. Si tratta di un compito molto impegnativo che tipicamente richiede un modello più complesso per ottenere risultati soddisfacenti. Inoltre, i lavori precedenti si concentrano principalmente sulla trascrizione di strumenti regolari, trascurando però le voci, che di solito rappresentano la fonte di segnale più importante se presenti in un brano musicale. In questo articolo, proponiamo una nuova architettura di rete neurale profonda, Perceiver TF, per modellare la rappresentazione tempo-frequenza dell'input audio per la trascrizione multitraccia. Perceiver TF amplia l'architettura Perceiver introducendo un'espansione gerarchica con un ulteriore strato Transformer per modellare la coerenza temporale. Di conseguenza, il nostro modello eredita i vantaggi di Perceiver, che offre una migliore scalabilità, consentendogli di gestire efficacemente la trascrizione di molti strumenti in un unico modello. Negli esperimenti, addestriamo un Perceiver TF per modellare 12 classi di strumenti oltre alla voce in un approccio di apprendimento multi-task. I nostri risultati dimostrano che il sistema proposto supera le controparti state-of-the-art (ad esempio, MT3 e SpecTNT) su vari dataset pubblici.
English
Multitrack music transcription aims to transcribe a music audio input into
the musical notes of multiple instruments simultaneously. It is a very
challenging task that typically requires a more complex model to achieve
satisfactory result. In addition, prior works mostly focus on transcriptions of
regular instruments, however, neglecting vocals, which are usually the most
important signal source if present in a piece of music. In this paper, we
propose a novel deep neural network architecture, Perceiver TF, to model the
time-frequency representation of audio input for multitrack transcription.
Perceiver TF augments the Perceiver architecture by introducing a hierarchical
expansion with an additional Transformer layer to model temporal coherence.
Accordingly, our model inherits the benefits of Perceiver that posses better
scalability, allowing it to well handle transcriptions of many instruments in a
single model. In experiments, we train a Perceiver TF to model 12 instrument
classes as well as vocal in a multi-task learning manner. Our result
demonstrates that the proposed system outperforms the state-of-the-art
counterparts (e.g., MT3 and SpecTNT) on various public datasets.