ChatPaper.aiChatPaper

Stemphonic: Generación musical flexible de múltiples pistas simultánea

Stemphonic: All-at-once Flexible Multi-stem Music Generation

February 10, 2026
Autores: Shih-Lun Wu, Ge Zhu, Juan-Pablo Caceres, Cheng-Zhi Anna Huang, Nicholas J. Bryan
cs.AI

Resumen

La generación de stems musicales, la tarea de producir clips de audio de instrumentos aislados y sincronizados musicalmente, ofrece el potencial de un mayor control para el usuario y una mejor alineación con los flujos de trabajo de los músicos en comparación con los modelos convencionales de texto a música. Sin embargo, los enfoques existentes de generación de stems dependen de arquitecturas fijas que generan un conjunto predefinido de stems en paralelo, o generan solo un stem a la vez, lo que resulta en una inferencia lenta a pesar de la flexibilidad en la combinación de stems. Proponemos Stemphonic, un marco basado en difusión/flujo que supera esta compensación y genera un conjunto variable de stems sincronizados en un único paso de inferencia. Durante el entrenamiento, tratamos cada stem como un elemento del lote, agrupamos los stems sincronizados en un lote y aplicamos un latente de ruido compartido a cada grupo. En el momento de la inferencia, utilizamos un latente de ruido inicial compartido y entradas de texto específicas para cada stem para generar salidas multi-stem sincronizadas en un solo paso. Además, expandimos nuestro enfoque para permitir la generación condicional multi-stem en un solo paso y controles de actividad por stem, capacitando a los usuarios para generar de manera iterativa y orquestar la superposición temporal de una mezcla. Evaluamos nuestros resultados en múltiples conjuntos de evaluación de stems de código abierto y demostramos que Stemphonic produce salidas de mayor calidad mientras acelera el proceso de generación de la mezcla completa entre un 25% y un 50%. Demos en: https://stemphonic-demo.vercel.app.
English
Music stem generation, the task of producing musically-synchronized and isolated instrument audio clips, offers the potential of greater user control and better alignment with musician workflows compared to conventional text-to-music models. Existing stem generation approaches, however, either rely on fixed architectures that output a predefined set of stems in parallel, or generate only one stem at a time, resulting in slow inference despite flexibility in stem combination. We propose Stemphonic, a diffusion-/flow-based framework that overcomes this trade-off and generates a variable set of synchronized stems in one inference pass. During training, we treat each stem as a batch element, group synchronized stems in a batch, and apply a shared noise latent to each group. At inference-time, we use a shared initial noise latent and stem-specific text inputs to generate synchronized multi-stem outputs in one pass. We further expand our approach to enable one-pass conditional multi-stem generation and stem-wise activity controls to empower users to iteratively generate and orchestrate the temporal layering of a mix. We benchmark our results on multiple open-source stem evaluation sets and show that Stemphonic produces higher-quality outputs while accelerating the full mix generation process by 25 to 50%. Demos at: https://stemphonic-demo.vercel.app.
PDF21February 14, 2026