DEMON: Diffusions-Engine für musikalisch orchestriertes Rauschen

Zusammenfassung

Wir präsentieren DEMON, eine Echtzeit-Diffusions-Engine, die den Entrauschungsprozess als lebendiges Musikinstrument spielbar macht: eine Steueroberfläche, die sowohl breit (viele Parameter, die pro Frame über die Ausgabe hinweg geformt werden) als auch reaktionsschnell ist (jede Steuerung wirkt so schnell, wie es ihre Position in der Entrauschungsschleife erlaubt). Aufbauend auf ACE-Step 1.5 und der Ringpuffer-Architektur von StreamDiffusion mit TensorRT-Beschleunigung erreicht sie auf einer einzelnen handelsüblichen GPU (RTX 5090) bis zu 12,3 Decoder-Ausgaben pro Sekunde für 60 Sekunden Musik oder 11,3 Generationen pro Sekunde bei unserer produktionsüblichen Ringtiefe von 4. Bei diesen Raten werden Entrauschungsparameter als Live-Performance-Steuerungen nutzbar, jedoch propagiert der Ringpuffer änderungen pro Anfrage nur mit seiner Drain-Rate, einer Untergrenze von S Entrauschungsschritten. Wir tragen vier Mechanismen bei. (1) Heterogene Entrauschungsplanung pro Slot: Jeder Ringpuffer-Slot besitzt seinen eigenen Zeitschrittplan, sodass ein sich bewegender Entrauschungs-Schieberegler verfolgt wird, ohne die laufende Warteschlange zu löschen – im Gegensatz zum vorgelagerten globalen Planungsdesign, das sie neu aufbauen und verwerfen muss. (2) Gemeinsamer veränderlicher Zustand pro Schritt: Jeder Parameter, der bei jedem Lösungsschritt abgefragt wird, erhält im nächsten Takt eine Wirkung und umgeht so den Ringpuffer-Drain. (3) Quellenüberblendung pro Frame: Eine Steuerung zur Abtastzeit des standardmäßigen SDE-Rauschschritts, die eine einzelbildweise Transformationsstärke-Achse bereitstellt und die skalare Entrauschungsplanung ergänzt. (4) Gefensterte VAE-Dekodierung unter Ausnutzung der Analyse des rezeptiven Feldes für eine 8,0-fache Dekodierungsbeschleunigung. Zusammen trennen diese Mechanismen die Streaming-Diffusionsparameter in vier Propagationsklassen, unterschieden nach Einsetz- und Konvergenz-Latenz.

English

We present DEMON, a real-time diffusion engine that makes the denoising process playable as a live musical instrument: a control surface both broad (many parameters shaped per-frame across the output) and responsive (each control taking effect as fast as its place in the denoising loop allows). Built on ACE-Step 1.5 and StreamDiffusion's ring-buffer architecture with TensorRT acceleration, it sustains up to 12.3 decoder completions per second for 60-second music on a single consumer GPU (RTX 5090), or 11.3 generations per second at our production ring-depth of 4. At these rates denoising parameters become viable as live performance controls, but the ring buffer propagates per-request changes only at its drain rate, a floor of S denoising steps. We contribute four mechanisms. (1) Per-slot heterogeneous denoise scheduling: each ring-buffer slot owns its timestep schedule, so a moving denoise slider is tracked without wiping the in-flight queue, where the upstream global-schedule design must rebuild and discard it. (2) Shared mutable per-step state, giving any parameter consulted at every solver step next-tick effect, bypassing ring-buffer drain. (3) Per-frame source blending: a sampling-time control on the standard SDE re-noise step, giving a framewise transformation-strength axis that complements scalar denoise scheduling. (4) Windowed VAE decode exploiting receptive-field analysis for an 8.0x decode speedup. Together these separate streaming-diffusion parameters into four propagation classes, by onset and convergence latency.