Stemphonic: Гибкая одновременная генерация музыки с несколькими дорожками
Stemphonic: All-at-once Flexible Multi-stem Music Generation
February 10, 2026
Авторы: Shih-Lun Wu, Ge Zhu, Juan-Pablo Caceres, Cheng-Zhi Anna Huang, Nicholas J. Bryan
cs.AI
Аннотация
Генерация музыкальных стемов — задача создания музыкально синхронизированных и изолированных аудиоклипов инструментов — обладает потенциалом для расширения пользовательского контроля и лучшего соответствия рабочим процессам музыкантов по сравнению с традиционными моделями преобразования текста в музыку. Однако существующие подходы к генерации стемов либо полагаются на фиксированные архитектуры, которые выводят предопределенный набор стемов параллельно, либо генерируют только один стем за раз, что приводит к медленному выводу, несмотря на гибкость в комбинации стемов. Мы предлагаем Stemphonic, диффузионно-флоуовую основу, которая преодолевает этот компромисс и генерирует переменный набор синхронизированных стемов за один проход вывода. Во время обучения мы рассматриваем каждый стем как элемент батча, группируем синхронизированные стемы в батче и применяем общий латент шума к каждой группе. На этапе вывода мы используем общий начальный латент шума и стем-специфичные текстовые входы для генерации синхронизированных многoстемовых выходов за один проход. Мы также расширяем наш подход для обеспечения условной многoстемовой генерации за один проход и управления активностью стемов, что позволяет пользователям итеративно генерировать и оркестровать временное наслоение микса. Мы тестируем наши результаты на нескольких открытых наборах данных для оценки стемов и показываем, что Stemphonic производит выходные данные более высокого качества, одновременно ускоряя процесс генерации полного микса на 25–50%. Демонстрации доступны по адресу: https://stemphonic-demo.vercel.app.
English
Music stem generation, the task of producing musically-synchronized and isolated instrument audio clips, offers the potential of greater user control and better alignment with musician workflows compared to conventional text-to-music models. Existing stem generation approaches, however, either rely on fixed architectures that output a predefined set of stems in parallel, or generate only one stem at a time, resulting in slow inference despite flexibility in stem combination. We propose Stemphonic, a diffusion-/flow-based framework that overcomes this trade-off and generates a variable set of synchronized stems in one inference pass. During training, we treat each stem as a batch element, group synchronized stems in a batch, and apply a shared noise latent to each group. At inference-time, we use a shared initial noise latent and stem-specific text inputs to generate synchronized multi-stem outputs in one pass. We further expand our approach to enable one-pass conditional multi-stem generation and stem-wise activity controls to empower users to iteratively generate and orchestrate the temporal layering of a mix. We benchmark our results on multiple open-source stem evaluation sets and show that Stemphonic produces higher-quality outputs while accelerating the full mix generation process by 25 to 50%. Demos at: https://stemphonic-demo.vercel.app.