Персонализируемое заполнение длинных контекстов в символической музыке с использованием MIDI-RWKV
Personalizable Long-Context Symbolic Music Infilling with MIDI-RWKV
June 16, 2025
Авторы: Christian Zhou-Zheng, Philippe Pasquier
cs.AI
Аннотация
Существующие работы в области автоматической генерации музыки в основном сосредоточены на сквозных системах, которые создают законченные композиции или их продолжения. Однако, поскольку музыкальная композиция обычно является итеративным процессом, такие системы затрудняют взаимодействие между человеком и машиной, которое крайне важно для компьютерно-ассистированного творчества. В данном исследовании мы рассматриваем задачу персонализируемого, многодорожечного, длинноконтекстного и управляемого заполнения символической музыки, чтобы улучшить процесс компьютерно-ассистированной композиции. Мы представляем MIDI-RWKV, новую модель, основанную на линейной архитектуре RWKV-7, которая позволяет эффективно и согласованно создавать музыку совместно с человеком на периферийных устройствах. Мы также показываем, что MIDI-RWKV допускает эффективный метод тонкой настройки её начального состояния для персонализации в условиях крайне малого количества данных. Мы оцениваем MIDI-RWKV и её настройку состояния по нескольким количественным и качественным метрикам, а также публикуем веса модели и код на https://github.com/christianazinn/MIDI-RWKV.
English
Existing work in automatic music generation has primarily focused on
end-to-end systems that produce complete compositions or continuations.
However, because musical composition is typically an iterative process, such
systems make it difficult to engage in the back-and-forth between human and
machine that is essential to computer-assisted creativity. In this study, we
address the task of personalizable, multi-track, long-context, and controllable
symbolic music infilling to enhance the process of computer-assisted
composition. We present MIDI-RWKV, a novel model based on the RWKV-7 linear
architecture, to enable efficient and coherent musical cocreation on edge
devices. We also demonstrate that MIDI-RWKV admits an effective method of
finetuning its initial state for personalization in the very-low-sample regime.
We evaluate MIDI-RWKV and its state tuning on several quantitative and
qualitative metrics, and release model weights and code at
https://github.com/christianazinn/MIDI-RWKV.