DEMON: 音楽的オーケストレーションノイズのための拡散エンジン

要旨

本稿では、DEMON（リアルタイム拡散エンジン）を提案する。これは、ノイズ除去プロセスを生きた楽器として演奏可能にするコントロールサーフェスである。すなわち、出力全体にわたってフレームごとに多数のパラメータを整形できる広範さと、各コントロールがノイズ除去ループ内のその位置に応じた速さで効果を発揮する応答性を兼ね備える。ACE-Step 1.5と、TensorRTアクセラレーションを採用したStreamDiffusionのリングバッファアーキテクチャ上に構築され、単一の民生用GPU（RTX 5090）上で、60秒の音楽に対して最大毎秒12.3件のデコーダ完了を達成する。また、プロダクションリング深度4では毎秒11.3世代の生成を実現する。これらのレートでは、ノイズ除去パラメータがライブパフォーマンスのコントロールとして実用可能となるが、リングバッファは要求ごとの変更をその排出レート（最低Sノイズ除去ステップ）でのみ伝搬する。これに対し、我々は4つのメカニズムを導入する。(1) スロットごとの異種ノイズ除去スケジューリング：各リングバッファスロットが独自のタイムステップスケジュールを保持するため、移動するノイズ除去スライダーを追跡する際に、処理中のキューを破棄することなく対応できる。これに対し、上流のグローバルスケジュール設計ではキューを再構築して破棄する必要がある。(2) 共有可能なステップごとの可変状態：各ソルバーステップで参照される任意のパラメータが次のティックで即座に効果を発揮し、リングバッファの排出をバイパスする。(3) フレームごとのソースブレンディング：標準的なSDE再ノイズステップに対するサンプリング時の制御であり、スカラーノイズ除去スケジューリングを補完するフレーム単位の変換強度軸を提供する。(4) ウィンドウ化VAEデコード：受容野解析を活用し、デコード速度を8.0倍に高速化する。これらを統合することで、ストリーミング拡散パラメータを、その開始遅延と収束遅延に基づいて4つの伝搬クラスに分類する。

English

We present DEMON, a real-time diffusion engine that makes the denoising process playable as a live musical instrument: a control surface both broad (many parameters shaped per-frame across the output) and responsive (each control taking effect as fast as its place in the denoising loop allows). Built on ACE-Step 1.5 and StreamDiffusion's ring-buffer architecture with TensorRT acceleration, it sustains up to 12.3 decoder completions per second for 60-second music on a single consumer GPU (RTX 5090), or 11.3 generations per second at our production ring-depth of 4. At these rates denoising parameters become viable as live performance controls, but the ring buffer propagates per-request changes only at its drain rate, a floor of S denoising steps. We contribute four mechanisms. (1) Per-slot heterogeneous denoise scheduling: each ring-buffer slot owns its timestep schedule, so a moving denoise slider is tracked without wiping the in-flight queue, where the upstream global-schedule design must rebuild and discard it. (2) Shared mutable per-step state, giving any parameter consulted at every solver step next-tick effect, bypassing ring-buffer drain. (3) Per-frame source blending: a sampling-time control on the standard SDE re-noise step, giving a framewise transformation-strength axis that complements scalar denoise scheduling. (4) Windowed VAE decode exploiting receptive-field analysis for an 8.0x decode speedup. Together these separate streaming-diffusion parameters into four propagation classes, by onset and convergence latency.