Preenchimento Personalizável de Música Simbólica de Longo Contexto com MIDI-RWKV
Personalizable Long-Context Symbolic Music Infilling with MIDI-RWKV
June 16, 2025
Autores: Christian Zhou-Zheng, Philippe Pasquier
cs.AI
Resumo
O trabalho existente em geração automática de música tem se concentrado principalmente em sistemas end-to-end que produzem composições completas ou continuações. No entanto, como a composição musical é tipicamente um processo iterativo, tais sistemas dificultam o engajamento no diálogo entre humano e máquina, que é essencial para a criatividade assistida por computador. Neste estudo, abordamos a tarefa de preenchimento simbólico de música personalizável, multi-faixa, de longo contexto e controlável para aprimorar o processo de composição assistida por computador. Apresentamos o MIDI-RWKV, um modelo inovador baseado na arquitetura linear RWKV-7, para permitir uma cocriação musical eficiente e coerente em dispositivos de borda. Também demonstramos que o MIDI-RWKV admite um método eficaz de ajuste fino de seu estado inicial para personalização em regimes de amostras muito reduzidas. Avaliamos o MIDI-RWKV e seu ajuste de estado em várias métricas quantitativas e qualitativas, e disponibilizamos os pesos do modelo e o código em https://github.com/christianazinn/MIDI-RWKV.
English
Existing work in automatic music generation has primarily focused on
end-to-end systems that produce complete compositions or continuations.
However, because musical composition is typically an iterative process, such
systems make it difficult to engage in the back-and-forth between human and
machine that is essential to computer-assisted creativity. In this study, we
address the task of personalizable, multi-track, long-context, and controllable
symbolic music infilling to enhance the process of computer-assisted
composition. We present MIDI-RWKV, a novel model based on the RWKV-7 linear
architecture, to enable efficient and coherent musical cocreation on edge
devices. We also demonstrate that MIDI-RWKV admits an effective method of
finetuning its initial state for personalization in the very-low-sample regime.
We evaluate MIDI-RWKV and its state tuning on several quantitative and
qualitative metrics, and release model weights and code at
https://github.com/christianazinn/MIDI-RWKV.