Transcripción Musical Multipista con un Perceptor Tiempo-Frecuencia
Multitrack Music Transcription with a Time-Frequency Perceiver
June 19, 2023
Autores: Wei-Tsung Lu, Ju-Chiang Wang, Yun-Ning Hung
cs.AI
Resumen
La transcripción de música multitrack tiene como objetivo transcribir una entrada de audio musical en las notas musicales de múltiples instrumentos simultáneamente. Es una tarea muy desafiante que generalmente requiere un modelo más complejo para lograr resultados satisfactorios. Además, trabajos previos se centran principalmente en la transcripción de instrumentos regulares, descuidando, sin embargo, las voces, que suelen ser la fuente de señal más importante si están presentes en una pieza musical. En este artículo, proponemos una novedosa arquitectura de red neuronal profunda, Perceiver TF, para modelar la representación tiempo-frecuencia de la entrada de audio en la transcripción multitrack. Perceiver TF amplía la arquitectura Perceiver al introducir una expansión jerárquica con una capa adicional de Transformer para modelar la coherencia temporal. En consecuencia, nuestro modelo hereda las ventajas de Perceiver, que posee una mejor escalabilidad, permitiéndole manejar eficazmente la transcripción de muchos instrumentos en un solo modelo. En los experimentos, entrenamos un Perceiver TF para modelar 12 clases de instrumentos, así como la voz, en un enfoque de aprendizaje multitarea. Nuestros resultados demuestran que el sistema propuesto supera a los modelos más avanzados (por ejemplo, MT3 y SpecTNT) en varios conjuntos de datos públicos.
English
Multitrack music transcription aims to transcribe a music audio input into
the musical notes of multiple instruments simultaneously. It is a very
challenging task that typically requires a more complex model to achieve
satisfactory result. In addition, prior works mostly focus on transcriptions of
regular instruments, however, neglecting vocals, which are usually the most
important signal source if present in a piece of music. In this paper, we
propose a novel deep neural network architecture, Perceiver TF, to model the
time-frequency representation of audio input for multitrack transcription.
Perceiver TF augments the Perceiver architecture by introducing a hierarchical
expansion with an additional Transformer layer to model temporal coherence.
Accordingly, our model inherits the benefits of Perceiver that posses better
scalability, allowing it to well handle transcriptions of many instruments in a
single model. In experiments, we train a Perceiver TF to model 12 instrument
classes as well as vocal in a multi-task learning manner. Our result
demonstrates that the proposed system outperforms the state-of-the-art
counterparts (e.g., MT3 and SpecTNT) on various public datasets.