ChatPaper.aiChatPaper

Stemphonic: Flexible Multi-Stem-Musikgeneration auf einen Schlag

Stemphonic: All-at-once Flexible Multi-stem Music Generation

February 10, 2026
papers.authors: Shih-Lun Wu, Ge Zhu, Juan-Pablo Caceres, Cheng-Zhi Anna Huang, Nicholas J. Bryan
cs.AI

papers.abstract

Die Erzeugung von Musikstems, also die Aufgabe, musikalisch synchronisierte und isolierte Instrumenten-Audioclips zu produzieren, bietet im Vergleich zu konventionellen Text-zu-Musik-Modellen das Potenzial für eine größere Benutzerkontrolle und eine bessere Anpassung an Musiker-Workflows. Bisherige Ansätze zur Stemerzeugung basieren jedoch entweder auf festen Architekturen, die einen vordefinierten Satz von Stems parallel ausgeben, oder erzeugen nur einen Stem gleichzeitig, was zu langsamer Inferenz führt, trotz der Flexibilität bei der Stemkombination. Wir schlagen Stemphonic vor, ein diffusions- und flow-basiertes Framework, das diesen Zielkonflikt überwindet und einen variablen Satz synchronisierter Stems in einem Inferenzdurchlauf erzeugt. Während des Trainings behandeln wir jeden Stem als ein Batchelement, gruppieren synchronisierte Stems in einem Batch und wenden einen gemeinsamen Rausch-Latentvektor auf jede Gruppe an. Zur Inferenzzeit verwenden wir einen gemeinsamen initialen Rausch-Latentvektor und stemspezifische Texteingaben, um synchronisierte Multi-Stem-Ausgaben in einem Durchlauf zu generieren. Wir erweitern unseren Ansatz weiter, um eine bedingte Multi-Stem-Generierung in einem Durchlauf und stemweise Aktivitätssteuerung zu ermöglichen, um Benutzer in die Lage zu versetzen, die zeitliche Schichtung eines Mixes iterativ zu erzeugen und zu orchestrieren. Wir benchmarken unsere Ergebnisse auf mehreren Open-Source-Stem-Evaluierungsdatensätzen und zeigen, dass Stemphonic qualitativ hochwertigere Ausgaben produziert und dabei den Gesamtmix-Generierungsprozess um 25 % bis 50 % beschleunigt. Demos unter: https://stemphonic-demo.vercel.app.
English
Music stem generation, the task of producing musically-synchronized and isolated instrument audio clips, offers the potential of greater user control and better alignment with musician workflows compared to conventional text-to-music models. Existing stem generation approaches, however, either rely on fixed architectures that output a predefined set of stems in parallel, or generate only one stem at a time, resulting in slow inference despite flexibility in stem combination. We propose Stemphonic, a diffusion-/flow-based framework that overcomes this trade-off and generates a variable set of synchronized stems in one inference pass. During training, we treat each stem as a batch element, group synchronized stems in a batch, and apply a shared noise latent to each group. At inference-time, we use a shared initial noise latent and stem-specific text inputs to generate synchronized multi-stem outputs in one pass. We further expand our approach to enable one-pass conditional multi-stem generation and stem-wise activity controls to empower users to iteratively generate and orchestrate the temporal layering of a mix. We benchmark our results on multiple open-source stem evaluation sets and show that Stemphonic produces higher-quality outputs while accelerating the full mix generation process by 25 to 50%. Demos at: https://stemphonic-demo.vercel.app.
PDF21February 14, 2026