ステムフォニック:一括生成による柔軟なマルチステム音楽生成
Stemphonic: All-at-once Flexible Multi-stem Music Generation
February 10, 2026
著者: Shih-Lun Wu, Ge Zhu, Juan-Pablo Caceres, Cheng-Zhi Anna Huang, Nicholas J. Bryan
cs.AI
要旨
音楽ステム生成は、音楽的に同期した分離楽器オーディオクリップを生成するタスクであり、従来のテキストtoミュージックモデルと比較して、より優れたユーザー制御性とミュージシャンのワークフローとの整合性を提供する可能性を秘めている。しかし、既存のステム生成手法は、事前に定義された一連のステムを並列出力する固定アーキテクチャに依存するか、あるいは一度に一つのステムのみを生成するため、ステム組み合わせの柔軟性があるにもかかわらず推論速度が遅いという課題がある。本研究では、このトレードオフを克服し、単一の推論パスで可変数の同期ステムを生成する拡散/フローベースのフレームワークStemphonicを提案する。訓練時には、各ステムをバッチ要素として扱い、同期するステムをバッチ内でグループ化し、各グループに共有ノイズ潜在変数を適用する。推論時には、共有の初期ノイズ潜在変数とステム固有のテキスト入力を用いて、同期したマルチステム出力を一度のパスで生成する。さらに、単一パスでの条件付きマルチステム生成とステム単位のアクティビティ制御を可能にし、ユーザーがミックスの時間的レイヤリングを反復的に生成・編曲できるように拡張する。複数のオープンソースステム評価セットを用いたベンチマーク実験により、Stemphonicが高品質な出力を生成しつつ、フルミックス生成プロセスを25~50%高速化することを示す。デモは以下:https://stemphonic-demo.vercel.app。
English
Music stem generation, the task of producing musically-synchronized and isolated instrument audio clips, offers the potential of greater user control and better alignment with musician workflows compared to conventional text-to-music models. Existing stem generation approaches, however, either rely on fixed architectures that output a predefined set of stems in parallel, or generate only one stem at a time, resulting in slow inference despite flexibility in stem combination. We propose Stemphonic, a diffusion-/flow-based framework that overcomes this trade-off and generates a variable set of synchronized stems in one inference pass. During training, we treat each stem as a batch element, group synchronized stems in a batch, and apply a shared noise latent to each group. At inference-time, we use a shared initial noise latent and stem-specific text inputs to generate synchronized multi-stem outputs in one pass. We further expand our approach to enable one-pass conditional multi-stem generation and stem-wise activity controls to empower users to iteratively generate and orchestrate the temporal layering of a mix. We benchmark our results on multiple open-source stem evaluation sets and show that Stemphonic produces higher-quality outputs while accelerating the full mix generation process by 25 to 50%. Demos at: https://stemphonic-demo.vercel.app.