Multitrack-Musiktranskription mit einem Zeit-Frequenz-Perceiver
Multitrack Music Transcription with a Time-Frequency Perceiver
June 19, 2023
Autoren: Wei-Tsung Lu, Ju-Chiang Wang, Yun-Ning Hung
cs.AI
Zusammenfassung
Die Mehrspur-Musiktranskription zielt darauf ab, ein Musik-Audio-Eingangssignal gleichzeitig in die musikalischen Noten mehrerer Instrumente zu transkribieren. Es handelt sich um eine äußerst anspruchsvolle Aufgabe, die in der Regel ein komplexeres Modell erfordert, um zufriedenstellende Ergebnisse zu erzielen. Darüber hinaus konzentrieren sich frühere Arbeiten meist auf die Transkription von Standardinstrumenten, vernachlässigen jedoch die Gesangsstimmen, die in der Regel die wichtigste Signalquelle darstellen, wenn sie in einem Musikstück vorhanden sind. In diesem Artikel schlagen wir eine neuartige Deep-Neural-Network-Architektur, Perceiver TF, vor, um die Zeit-Frequenz-Darstellung des Audio-Eingangssignals für die Mehrspur-Transkription zu modellieren. Perceiver TF erweitert die Perceiver-Architektur durch die Einführung einer hierarchischen Erweiterung mit einer zusätzlichen Transformer-Schicht, um die zeitliche Kohärenz zu modellieren. Dementsprechend erbt unser Modell die Vorteile von Perceiver, die eine bessere Skalierbarkeit bieten, wodurch es in der Lage ist, die Transkription vieler Instrumente in einem einzigen Modell gut zu bewältigen. In den Experimenten trainieren wir einen Perceiver TF, um 12 Instrumentenklassen sowie Gesang in einem Multi-Task-Learning-Ansatz zu modellieren. Unsere Ergebnisse zeigen, dass das vorgeschlagene System auf verschiedenen öffentlichen Datensätzen die state-of-the-art Gegenstücke (z. B. MT3 und SpecTNT) übertrifft.
English
Multitrack music transcription aims to transcribe a music audio input into
the musical notes of multiple instruments simultaneously. It is a very
challenging task that typically requires a more complex model to achieve
satisfactory result. In addition, prior works mostly focus on transcriptions of
regular instruments, however, neglecting vocals, which are usually the most
important signal source if present in a piece of music. In this paper, we
propose a novel deep neural network architecture, Perceiver TF, to model the
time-frequency representation of audio input for multitrack transcription.
Perceiver TF augments the Perceiver architecture by introducing a hierarchical
expansion with an additional Transformer layer to model temporal coherence.
Accordingly, our model inherits the benefits of Perceiver that posses better
scalability, allowing it to well handle transcriptions of many instruments in a
single model. In experiments, we train a Perceiver TF to model 12 instrument
classes as well as vocal in a multi-task learning manner. Our result
demonstrates that the proposed system outperforms the state-of-the-art
counterparts (e.g., MT3 and SpecTNT) on various public datasets.