Relleno Simbólico de Música de Contexto Largo Personalizable con MIDI-RWKV
Personalizable Long-Context Symbolic Music Infilling with MIDI-RWKV
June 16, 2025
Autores: Christian Zhou-Zheng, Philippe Pasquier
cs.AI
Resumen
El trabajo existente en la generación automática de música se ha centrado principalmente en sistemas de extremo a extremo que producen composiciones completas o continuaciones. Sin embargo, dado que la composición musical es típicamente un proceso iterativo, estos sistemas dificultan la interacción bidireccional entre el humano y la máquina, que es esencial para la creatividad asistida por computadora. En este estudio, abordamos la tarea de relleno musical simbólico personalizable, de múltiples pistas, de contexto largo y controlable para mejorar el proceso de composición asistida por computadora. Presentamos MIDI-RWKV, un modelo novedoso basado en la arquitectura lineal RWKV-7, para permitir una cocreación musical eficiente y coherente en dispositivos de borde. También demostramos que MIDI-RWKV admite un método efectivo de ajuste fino de su estado inicial para la personalización en regímenes de muy baja muestra. Evaluamos MIDI-RWKV y su ajuste de estado en varias métricas cuantitativas y cualitativas, y publicamos los pesos del modelo y el código en https://github.com/christianazinn/MIDI-RWKV.
English
Existing work in automatic music generation has primarily focused on
end-to-end systems that produce complete compositions or continuations.
However, because musical composition is typically an iterative process, such
systems make it difficult to engage in the back-and-forth between human and
machine that is essential to computer-assisted creativity. In this study, we
address the task of personalizable, multi-track, long-context, and controllable
symbolic music infilling to enhance the process of computer-assisted
composition. We present MIDI-RWKV, a novel model based on the RWKV-7 linear
architecture, to enable efficient and coherent musical cocreation on edge
devices. We also demonstrate that MIDI-RWKV admits an effective method of
finetuning its initial state for personalization in the very-low-sample regime.
We evaluate MIDI-RWKV and its state tuning on several quantitative and
qualitative metrics, and release model weights and code at
https://github.com/christianazinn/MIDI-RWKV.