Transcription musicale multitrame avec un Percepteur temps-fréquence
Multitrack Music Transcription with a Time-Frequency Perceiver
June 19, 2023
Auteurs: Wei-Tsung Lu, Ju-Chiang Wang, Yun-Ning Hung
cs.AI
Résumé
La transcription musicale multitransiste vise à transcrire un signal audio musical en notes de musique pour plusieurs instruments simultanément. Il s'agit d'une tâche très complexe qui nécessite généralement un modèle plus sophistiqué pour obtenir des résultats satisfaisants. De plus, les travaux antérieurs se concentrent principalement sur la transcription d'instruments classiques, négligeant souvent les voix, qui constituent pourtant la source sonore la plus importante lorsqu'elles sont présentes dans un morceau de musique. Dans cet article, nous proposons une nouvelle architecture de réseau de neurones profond, Perceiver TF, pour modéliser la représentation temps-fréquence du signal audio en vue d'une transcription multitransiste. Perceiver TF enrichit l'architecture Perceiver en introduisant une expansion hiérarchique avec une couche Transformer supplémentaire pour modéliser la cohérence temporelle. Ainsi, notre modèle hérite des avantages de Perceiver, notamment une meilleure scalabilité, lui permettant de gérer efficacement la transcription de nombreux instruments dans un seul modèle. Lors des expériences, nous entraînons un Perceiver TF à modéliser 12 classes d'instruments ainsi que les voix dans un cadre d'apprentissage multitâche. Nos résultats démontrent que le système proposé surpasse les approches de pointe (par exemple, MT3 et SpecTNT) sur divers ensembles de données publics.
English
Multitrack music transcription aims to transcribe a music audio input into
the musical notes of multiple instruments simultaneously. It is a very
challenging task that typically requires a more complex model to achieve
satisfactory result. In addition, prior works mostly focus on transcriptions of
regular instruments, however, neglecting vocals, which are usually the most
important signal source if present in a piece of music. In this paper, we
propose a novel deep neural network architecture, Perceiver TF, to model the
time-frequency representation of audio input for multitrack transcription.
Perceiver TF augments the Perceiver architecture by introducing a hierarchical
expansion with an additional Transformer layer to model temporal coherence.
Accordingly, our model inherits the benefits of Perceiver that posses better
scalability, allowing it to well handle transcriptions of many instruments in a
single model. In experiments, we train a Perceiver TF to model 12 instrument
classes as well as vocal in a multi-task learning manner. Our result
demonstrates that the proposed system outperforms the state-of-the-art
counterparts (e.g., MT3 and SpecTNT) on various public datasets.