Stemphonic: Flexibele Alles-in-één Multi-stem Muziekgeneratie
Stemphonic: All-at-once Flexible Multi-stem Music Generation
February 10, 2026
Auteurs: Shih-Lun Wu, Ge Zhu, Juan-Pablo Caceres, Cheng-Zhi Anna Huang, Nicholas J. Bryan
cs.AI
Samenvatting
Muziekstengeneratie, de taak om muzikaal gesynchroniseerde en geïsoleerde instrumentaudiofragmenten te produceren, biedt het potentieel voor meer gebruikerscontrole en een betere afstemming op muzikantenwerkflows in vergelijking met conventionele tekst-naar-muziekmodellen. Bestaande benaderingen voor stengeneratie vertrouwen echter op vaste architecturen die een vooraf gedefinieerde set stems parallel uitvoeren, of genereren slechts één stem tegelijk, wat resulteert in trage inferentie ondanks flexibiliteit in stemcombinatie. Wij stellen Stemphonic voor, een op diffusie-/flow-gebaseerd raamwerk dat deze afweging overwint en een variabele set gesynchroniseerde stems in één inferentiepassage genereert. Tijdens de training behandelen we elke stem als een batchelement, groeperen gesynchroniseerde stems in een batch en passen een gedeelde ruis-latent toe op elke groep. Tijdens inferentie gebruiken we een gedeelde initiële ruis-latent en stemspecifieke tekstinvoer om gesynchroniseerde multi-stemuitvoer in één passage te genereren. We breiden onze aanpak verder uit om conditionele multi-stemgeneratie in één passage en stemactiviteitscontroles mogelijk te maken, zodat gebruikers iteratief de temporele gelaagdheid van een mix kunnen genereren en orkestreren. We benchmarken onze resultaten op meerdere open-source stem-evaluatiesets en tonen aan dat Stemphonic uitvoer van hogere kwaliteit produceert terwijl het het volledige mixgeneratieproces met 25 tot 50% versnelt. Demo's op: https://stemphonic-demo.vercel.app.
English
Music stem generation, the task of producing musically-synchronized and isolated instrument audio clips, offers the potential of greater user control and better alignment with musician workflows compared to conventional text-to-music models. Existing stem generation approaches, however, either rely on fixed architectures that output a predefined set of stems in parallel, or generate only one stem at a time, resulting in slow inference despite flexibility in stem combination. We propose Stemphonic, a diffusion-/flow-based framework that overcomes this trade-off and generates a variable set of synchronized stems in one inference pass. During training, we treat each stem as a batch element, group synchronized stems in a batch, and apply a shared noise latent to each group. At inference-time, we use a shared initial noise latent and stem-specific text inputs to generate synchronized multi-stem outputs in one pass. We further expand our approach to enable one-pass conditional multi-stem generation and stem-wise activity controls to empower users to iteratively generate and orchestrate the temporal layering of a mix. We benchmark our results on multiple open-source stem evaluation sets and show that Stemphonic produces higher-quality outputs while accelerating the full mix generation process by 25 to 50%. Demos at: https://stemphonic-demo.vercel.app.