Многодорожечная транскрипция музыки с использованием Time-Frequency Perceiver
Multitrack Music Transcription with a Time-Frequency Perceiver
June 19, 2023
Авторы: Wei-Tsung Lu, Ju-Chiang Wang, Yun-Ning Hung
cs.AI
Аннотация
Многодорожечная транскрипция музыки ставит своей целью преобразование аудиовхода музыкального произведения в нотные записи для нескольких инструментов одновременно. Это крайне сложная задача, которая обычно требует более сложной модели для достижения удовлетворительных результатов. Кроме того, предыдущие работы в основном сосредоточены на транскрипции стандартных инструментов, однако пренебрегают вокалом, который, как правило, является наиболее важным источником сигнала, если он присутствует в музыкальной композиции. В данной статье мы предлагаем новую архитектуру глубокой нейронной сети, Perceiver TF, для моделирования временно-частотного представления аудиовхода при многодорожечной транскрипции. Perceiver TF расширяет архитектуру Perceiver за счет введения иерархического расширения с дополнительным слоем Transformer для моделирования временной согласованности. Соответственно, наша модель наследует преимущества Perceiver, обладая лучшей масштабируемостью, что позволяет ей эффективно справляться с транскрипцией множества инструментов в рамках одной модели. В экспериментах мы обучаем Perceiver TF моделировать 12 классов инструментов, а также вокал, используя подход многозадачного обучения. Наши результаты демонстрируют, что предложенная система превосходит современные аналоги (например, MT3 и SpecTNT) на различных публичных наборах данных.
English
Multitrack music transcription aims to transcribe a music audio input into
the musical notes of multiple instruments simultaneously. It is a very
challenging task that typically requires a more complex model to achieve
satisfactory result. In addition, prior works mostly focus on transcriptions of
regular instruments, however, neglecting vocals, which are usually the most
important signal source if present in a piece of music. In this paper, we
propose a novel deep neural network architecture, Perceiver TF, to model the
time-frequency representation of audio input for multitrack transcription.
Perceiver TF augments the Perceiver architecture by introducing a hierarchical
expansion with an additional Transformer layer to model temporal coherence.
Accordingly, our model inherits the benefits of Perceiver that posses better
scalability, allowing it to well handle transcriptions of many instruments in a
single model. In experiments, we train a Perceiver TF to model 12 instrument
classes as well as vocal in a multi-task learning manner. Our result
demonstrates that the proposed system outperforms the state-of-the-art
counterparts (e.g., MT3 and SpecTNT) on various public datasets.