Transcripción Musical Multipista con un Perceptor Tiempo-Frecuencia

Resumen

La transcripción de música multitrack tiene como objetivo transcribir una entrada de audio musical en las notas musicales de múltiples instrumentos simultáneamente. Es una tarea muy desafiante que generalmente requiere un modelo más complejo para lograr resultados satisfactorios. Además, trabajos previos se centran principalmente en la transcripción de instrumentos regulares, descuidando, sin embargo, las voces, que suelen ser la fuente de señal más importante si están presentes en una pieza musical. En este artículo, proponemos una novedosa arquitectura de red neuronal profunda, Perceiver TF, para modelar la representación tiempo-frecuencia de la entrada de audio en la transcripción multitrack. Perceiver TF amplía la arquitectura Perceiver al introducir una expansión jerárquica con una capa adicional de Transformer para modelar la coherencia temporal. En consecuencia, nuestro modelo hereda las ventajas de Perceiver, que posee una mejor escalabilidad, permitiéndole manejar eficazmente la transcripción de muchos instrumentos en un solo modelo. En los experimentos, entrenamos un Perceiver TF para modelar 12 clases de instrumentos, así como la voz, en un enfoque de aprendizaje multitarea. Nuestros resultados demuestran que el sistema propuesto supera a los modelos más avanzados (por ejemplo, MT3 y SpecTNT) en varios conjuntos de datos públicos.

English

Multitrack music transcription aims to transcribe a music audio input into the musical notes of multiple instruments simultaneously. It is a very challenging task that typically requires a more complex model to achieve satisfactory result. In addition, prior works mostly focus on transcriptions of regular instruments, however, neglecting vocals, which are usually the most important signal source if present in a piece of music. In this paper, we propose a novel deep neural network architecture, Perceiver TF, to model the time-frequency representation of audio input for multitrack transcription. Perceiver TF augments the Perceiver architecture by introducing a hierarchical expansion with an additional Transformer layer to model temporal coherence. Accordingly, our model inherits the benefits of Perceiver that posses better scalability, allowing it to well handle transcriptions of many instruments in a single model. In experiments, we train a Perceiver TF to model 12 instrument classes as well as vocal in a multi-task learning manner. Our result demonstrates that the proposed system outperforms the state-of-the-art counterparts (e.g., MT3 and SpecTNT) on various public datasets.

Transcripción Musical Multipista con un Perceptor Tiempo-Frecuencia

Multitrack Music Transcription with a Time-Frequency Perceiver

Resumen

Support