스템포닉: 동시 생성 방식의 유연한 멀티 스템 음악 생성
Stemphonic: All-at-once Flexible Multi-stem Music Generation
February 10, 2026
저자: Shih-Lun Wu, Ge Zhu, Juan-Pablo Caceres, Cheng-Zhi Anna Huang, Nicholas J. Bryan
cs.AI
초록
음악 스템 생성은 음악적으로 동기화되고 분리된 악기 오디오 클립을 생성하는 작업으로, 기존의 텍스트-음악 변환 모델에 비해 더 나은 사용자 제어와 음악가 워크플로우와의 향상된 연계성을 제공합니다. 그러나 기존 스템 생성 방식은 미리 정의된 스템 집합을 병렬로 출력하는 고정 아키텍처에 의존하거나, 한 번에 하나의 스템만 생성하여 스템 조합 유연성은 있지만 추론 속도가 느린 한계가 있습니다. 본 논문에서는 이러한 절충점을 극복하고 단일 추론 과정에서 가변적인 동기화된 스템 집합을 생성하는 확산/플로우 기반 프레임워크인 Stemphonic를 제안합니다. 학습 과정에서는 각 스템을 배치 요소로 취급하고, 동기화된 스템들을 배치 내에서 그룹화하며, 각 그룹에 공통 노이즈 잠재 변수를 적용합니다. 추론 시에는 공통 초기 노이즈 잠재 변수와 스템별 텍스트 입력을 사용하여 단일 패스로 동기화된 다중 스템 출력을 생성합니다. 또한 본 접근법을 확장하여 단일 패스 조건부 다중 스템 생성과 스템별 활동 제어를 가능하게 하여 사용자가 반복적으로 믹스의 시간적 레이어링을 생성하고 오케스트레이션할 수 있도록 합니다. 다양한 오픈소스 스템 평가 데이터셋에서 실험한 결과, Stemphonic는 전체 믹스 생성 과정을 25~50% 가속화하면서도 더 높은 품질의 출력을 생성하는 것으로 나타났습니다. 데모: https://stemphonic-demo.vercel.app.
English
Music stem generation, the task of producing musically-synchronized and isolated instrument audio clips, offers the potential of greater user control and better alignment with musician workflows compared to conventional text-to-music models. Existing stem generation approaches, however, either rely on fixed architectures that output a predefined set of stems in parallel, or generate only one stem at a time, resulting in slow inference despite flexibility in stem combination. We propose Stemphonic, a diffusion-/flow-based framework that overcomes this trade-off and generates a variable set of synchronized stems in one inference pass. During training, we treat each stem as a batch element, group synchronized stems in a batch, and apply a shared noise latent to each group. At inference-time, we use a shared initial noise latent and stem-specific text inputs to generate synchronized multi-stem outputs in one pass. We further expand our approach to enable one-pass conditional multi-stem generation and stem-wise activity controls to empower users to iteratively generate and orchestrate the temporal layering of a mix. We benchmark our results on multiple open-source stem evaluation sets and show that Stemphonic produces higher-quality outputs while accelerating the full mix generation process by 25 to 50%. Demos at: https://stemphonic-demo.vercel.app.