Stemphonic: Geração Musical Flexível de Múltiplas Pistas de uma Só Vez
Stemphonic: All-at-once Flexible Multi-stem Music Generation
February 10, 2026
Autores: Shih-Lun Wu, Ge Zhu, Juan-Pablo Caceres, Cheng-Zhi Anna Huang, Nicholas J. Bryan
cs.AI
Resumo
A geração de stems musicais, a tarefa de produzir clipes de áudio de instrumentos isolados e sincronizados musicalmente, oferece o potencial de maior controle do utilizador e melhor alinhamento com os fluxos de trabalho dos músicos em comparação com os modelos convencionais de texto-para-música. No entanto, as abordagens existentes de geração de stems ou dependem de arquiteturas fixas que produzem um conjunto predefinido de stems em paralelo, ou geram apenas um stem de cada vez, resultando numa inferência lenta, apesar da flexibilidade na combinação de stems. Propomos o Stemphonic, uma estrutura baseada em difusão/fluxo que supera este compromisso e gera um conjunto variável de stems sincronizados numa única passagem de inferência. Durante o treino, tratamos cada stem como um elemento do lote, agrupamos stems sincronizados num lote e aplicamos um latente de ruído partilhado a cada grupo. No momento da inferência, usamos um latente de ruído inicial partilhado e entradas de texto específicas por stem para gerar saídas multi-stem sincronizadas numa única passagem. Expandimos ainda a nossa abordagem para permitir a geração condicional multi-stem numa única passagem e controlos de atividade por stem, capacitando os utilizadores para gerar e orquestrar iterativamente a sobreposição temporal de uma mistura. Avaliámos os nossos resultados em vários conjuntos de avaliação de stems de código aberto e mostrámos que o Stemphonic produz saídas de maior qualidade, enquanto acelera o processo de geração da mistura completa em 25 a 50%. Demonstrações em: https://stemphonic-demo.vercel.app.
English
Music stem generation, the task of producing musically-synchronized and isolated instrument audio clips, offers the potential of greater user control and better alignment with musician workflows compared to conventional text-to-music models. Existing stem generation approaches, however, either rely on fixed architectures that output a predefined set of stems in parallel, or generate only one stem at a time, resulting in slow inference despite flexibility in stem combination. We propose Stemphonic, a diffusion-/flow-based framework that overcomes this trade-off and generates a variable set of synchronized stems in one inference pass. During training, we treat each stem as a batch element, group synchronized stems in a batch, and apply a shared noise latent to each group. At inference-time, we use a shared initial noise latent and stem-specific text inputs to generate synchronized multi-stem outputs in one pass. We further expand our approach to enable one-pass conditional multi-stem generation and stem-wise activity controls to empower users to iteratively generate and orchestrate the temporal layering of a mix. We benchmark our results on multiple open-source stem evaluation sets and show that Stemphonic produces higher-quality outputs while accelerating the full mix generation process by 25 to 50%. Demos at: https://stemphonic-demo.vercel.app.