ChatPaper.aiChatPaper

Stemphonic: Generazione Musicale Multi-stem Flessibile e Istantanea

Stemphonic: All-at-once Flexible Multi-stem Music Generation

February 10, 2026
Autori: Shih-Lun Wu, Ge Zhu, Juan-Pablo Caceres, Cheng-Zhi Anna Huang, Nicholas J. Bryan
cs.AI

Abstract

La generazione di stem musicali, ovvero il compito di produrre clip audio di strumenti isolati e sincronizzati musicalmente, offre il potenziale di un maggiore controllo utente e una migliore aderenza ai flussi di lavoro dei musicisti rispetto ai modelli convenzionali di testo-musica. Gli approcci esistenti per la generazione di stem, tuttavia, si basano su architetture fisse che producono in parallelo un set predefinito di stem, oppure generano un solo stem alla volta, risultando in un'inferenza lenta nonostante la flessibilità nella combinazione degli stem. Proponiamo Stemphonic, un framework basato su diffusione/flusso che supera questo compromesso e genera un set variabile di stem sincronizzati in un unico passaggio di inferenza. Durante l'addestramento, trattiamo ogni stem come un elemento del batch, raggruppiamo gli stem sincronizzati in un batch e applichiamo un latente di rumore condiviso a ciascun gruppo. Al momento dell'inferenza, utilizziamo un latente di rumore iniziale condiviso e input testuali specifici per stem per generare output multi-stem sincronizzati in un solo passaggio. Estendiamo ulteriormente il nostro approccio per abilitare la generazione condizionale multi-stem in un passaggio e controlli di attività per singolo stem, consentendo agli utenti di generare in modo iterativo e orchestrare la stratificazione temporale di un mix. Valutiamo i nostri risultati su molteplici set di valutazione di stem open-source e dimostriamo che Stemphonic produce output di qualità superiore accelerando il processo di generazione del mix completo del 25-50%. Demo disponibili su: https://stemphonic-demo.vercel.app.
English
Music stem generation, the task of producing musically-synchronized and isolated instrument audio clips, offers the potential of greater user control and better alignment with musician workflows compared to conventional text-to-music models. Existing stem generation approaches, however, either rely on fixed architectures that output a predefined set of stems in parallel, or generate only one stem at a time, resulting in slow inference despite flexibility in stem combination. We propose Stemphonic, a diffusion-/flow-based framework that overcomes this trade-off and generates a variable set of synchronized stems in one inference pass. During training, we treat each stem as a batch element, group synchronized stems in a batch, and apply a shared noise latent to each group. At inference-time, we use a shared initial noise latent and stem-specific text inputs to generate synchronized multi-stem outputs in one pass. We further expand our approach to enable one-pass conditional multi-stem generation and stem-wise activity controls to empower users to iteratively generate and orchestrate the temporal layering of a mix. We benchmark our results on multiple open-source stem evaluation sets and show that Stemphonic produces higher-quality outputs while accelerating the full mix generation process by 25 to 50%. Demos at: https://stemphonic-demo.vercel.app.
PDF23March 17, 2026