개인화 가능한 장문맥 심볼릭 음악 채우기: MIDI-RWKV
Personalizable Long-Context Symbolic Music Infilling with MIDI-RWKV
June 16, 2025
저자: Christian Zhou-Zheng, Philippe Pasquier
cs.AI
초록
기존의 자동 음악 생성 연구는 주로 완전한 작곡이나 연속 작곡을 생성하는 종단 간(end-to-end) 시스템에 초점을 맞추어 왔습니다. 그러나 음악 작곡은 일반적으로 반복적인 과정이기 때문에, 이러한 시스템은 컴퓨터 지원 창작에 필수적인 인간과 기계 간의 상호작용을 어렵게 만듭니다. 본 연구에서는 컴퓨터 지원 작곡 과정을 향상시키기 위해 개인화 가능하고, 다중 트랙, 장기 문맥, 제어 가능한 심볼릭 음악 채우기 작업을 다룹니다. 우리는 RWKV-7 선형 아키텍처를 기반으로 한 새로운 모델인 MIDI-RWKV를 제안하여 에지 디바이스에서 효율적이고 일관된 음악 공동 작성을 가능하게 합니다. 또한 MIDI-RWKV가 매우 적은 샘플 환경에서 초기 상태를 미세 조정하여 개인화를 달성하는 효과적인 방법을 허용함을 보여줍니다. 우리는 MIDI-RWKV와 그 상태 조정을 여러 정량적 및 정성적 지표로 평가하고, 모델 가중치와 코드를 https://github.com/christianazinn/MIDI-RWKV에서 공개합니다.
English
Existing work in automatic music generation has primarily focused on
end-to-end systems that produce complete compositions or continuations.
However, because musical composition is typically an iterative process, such
systems make it difficult to engage in the back-and-forth between human and
machine that is essential to computer-assisted creativity. In this study, we
address the task of personalizable, multi-track, long-context, and controllable
symbolic music infilling to enhance the process of computer-assisted
composition. We present MIDI-RWKV, a novel model based on the RWKV-7 linear
architecture, to enable efficient and coherent musical cocreation on edge
devices. We also demonstrate that MIDI-RWKV admits an effective method of
finetuning its initial state for personalization in the very-low-sample regime.
We evaluate MIDI-RWKV and its state tuning on several quantitative and
qualitative metrics, and release model weights and code at
https://github.com/christianazinn/MIDI-RWKV.