MuPT: Генеративный символьный музыкальный предобученный трансформер
MuPT: A Generative Symbolic Music Pretrained Transformer
April 9, 2024
Авторы: Xingwei Qu, Yuelin Bai, Yinghao Ma, Ziya Zhou, Ka Man Lo, Jiaheng Liu, Ruibin Yuan, Lejun Min, Xueling Liu, Tianyu Zhang, Xinrun Du, Shuyue Guo, Yiming Liang, Yizhi Li, Shangda Wu, Junting Zhou, Tianyu Zheng, Ziyang Ma, Fengze Han, Wei Xue, Gus Xia, Emmanouil Benetos, Xiang Yue, Chenghua Lin, Xu Tan, Stephen W. Huang, Wenhu Chen, Jie Fu, Ge Zhang
cs.AI
Аннотация
В данной статье мы исследуем применение больших языковых моделей (LLM) для предварительного обучения музыке. В то время как широко распространенное использование MIDI в моделировании музыки хорошо известно, наши результаты показывают, что LLM более совместимы с нотацией ABC, которая ближе соответствует их конструкции и преимуществам, тем самым улучшая производительность модели в музыкальной композиции. Для решения проблем, связанных с несогласованными тактами из разных треков во время генерации, мы предлагаем разработку Синхронизированной Мульти-Трековой Нотации ABC (SMT-ABC Notation), которая направлена на сохранение согласованности между несколькими музыкальными треками. Наши достижения включают серию моделей, способных обрабатывать до 8192 токенов, охватывающих 90% символьных данных музыки в нашем наборе данных для обучения. Кроме того, мы исследуем влияние Закона Масштабирования Символьной Музыки (SMS Law) на производительность модели. Результаты указывают на многообещающее направление для будущих исследований в области генерации музыки, предлагая обширные ресурсы для исследований, проводимых сообществом, через наши вклады в открытые исходные коды.
English
In this paper, we explore the application of Large Language Models (LLMs) to
the pre-training of music. While the prevalent use of MIDI in music modeling is
well-established, our findings suggest that LLMs are inherently more compatible
with ABC Notation, which aligns more closely with their design and strengths,
thereby enhancing the model's performance in musical composition. To address
the challenges associated with misaligned measures from different tracks during
generation, we propose the development of a Synchronized
Multi-Track ABC Notation (SMT-ABC Notation),
which aims to preserve coherence across multiple musical tracks. Our
contributions include a series of models capable of handling up to 8192 tokens,
covering 90\% of the symbolic music data in our training set. Furthermore, we
explore the implications of the Symbolic Music
Scaling Law (SMS Law) on model performance. The results
indicate a promising direction for future research in music generation,
offering extensive resources for community-led research through our open-source
contributions.