DEMON: Diffusiemotor voor Muzikaal Georkestreerde Ruis

Samenvatting

We presenteren DEMON, een real-time diffusie-engine die het ontruisingsproces bespeelbaar maakt als een live muziekinstrument: een bedieningsoppervlak dat zowel breed (veel parameters die per frame over de output worden gevormd) als responsief is (elke bediening wordt zo snel doorgevoerd als de positie in de ontruisingslus toestaat). Gebouwd op ACE-Step 1.5 en de ringbufferarchitectuur van StreamDiffusion met TensorRT-versnelling, behaalt het tot 12,3 decoder-voltooiingen per seconde voor 60 seconden muziek op een enkele consumenten-GPU (RTX 5090), of 11,3 generaties per seconde bij onze productie-ringdiepte van 4. Bij deze snelheden worden ontruisingsparameters bruikbaar als live-uitvoeringsregelaars, maar de ringbuffer verspreidt wijzigingen per verzoek alleen met de afvoersnelheid, een ondergrens van S ontruisingsstappen. Wij leveren vier mechanismen. (1) Per-slot heterogene ontruisingsplanning: elk ringbufferslot heeft zijn eigen tijdstappenschema, zodat een bewegende ontruisingsschuif wordt gevolgd zonder de wachtrij in vlucht te wissen, terwijl het stroomopwaartse globale-schema-ontwerp deze moet herbouwen en weggooien. (2) Gedeelde veranderlijke toestand per stap, die ervoor zorgt dat elke parameter die bij elke oplossingsstap wordt geraadpleegd, een volgende-tick-effect heeft, waarbij de ringbufferafvoer wordt omzeild. (3) Per-frame bronmenging: een bemonsteringstijdstipregeling op de standaard SDE-herruisstap, die een framewijze transformatiesterkte-as biedt als aanvulling op scalaire ontruisingsplanning. (4) Venster-VAE-decodering die gebruikmaakt van receptieve-veldanalyse voor een 8,0x decodeersnelheidsverbetering. Samen splitsen deze streaming-diffusieparameters in vier propagatieklassen, naar begin- en convergentielatentie.

English

We present DEMON, a real-time diffusion engine that makes the denoising process playable as a live musical instrument: a control surface both broad (many parameters shaped per-frame across the output) and responsive (each control taking effect as fast as its place in the denoising loop allows). Built on ACE-Step 1.5 and StreamDiffusion's ring-buffer architecture with TensorRT acceleration, it sustains up to 12.3 decoder completions per second for 60-second music on a single consumer GPU (RTX 5090), or 11.3 generations per second at our production ring-depth of 4. At these rates denoising parameters become viable as live performance controls, but the ring buffer propagates per-request changes only at its drain rate, a floor of S denoising steps. We contribute four mechanisms. (1) Per-slot heterogeneous denoise scheduling: each ring-buffer slot owns its timestep schedule, so a moving denoise slider is tracked without wiping the in-flight queue, where the upstream global-schedule design must rebuild and discard it. (2) Shared mutable per-step state, giving any parameter consulted at every solver step next-tick effect, bypassing ring-buffer drain. (3) Per-frame source blending: a sampling-time control on the standard SDE re-noise step, giving a framewise transformation-strength axis that complements scalar denoise scheduling. (4) Windowed VAE decode exploiting receptive-field analysis for an 8.0x decode speedup. Together these separate streaming-diffusion parameters into four propagation classes, by onset and convergence latency.