DEMON: Motor de Difusión para Ruido Musical Orquestado
DEMON: Diffusion Engine for Musical Orchestrated Noise
May 27, 2026
Autores: Ryan Fosdick
cs.AI
Resumen
Presentamos DEMON, un motor de difusión en tiempo real que convierte el proceso de eliminación de ruido en un instrumento musical vivo y manejable: una superficie de control tanto amplia (muchos parámetros moldeados por trama en toda la salida) como receptiva (cada control surte efecto tan rápido como lo permite su lugar en el bucle de eliminación de ruido). Construido sobre ACE-Step 1.5 y la arquitectura de búfer circular de StreamDiffusion con aceleración TensorRT, mantiene hasta 12.3 completaciones de decodificador por segundo para música de 60 segundos en una única GPU de consumo (RTX 5090), o 11.3 generaciones por segundo a nuestra profundidad de anillo de producción de 4. A estas tasas, los parámetros de eliminación de ruido se vuelven viables como controles de interpretación en vivo, pero el búfer circular propaga los cambios por solicitud solo a su tasa de drenaje, un piso de S pasos de eliminación de ruido. Aportamos cuatro mecanismos. (1) Programación heterogénea de eliminación de ruido por ranura: cada ranura del búfer circular posee su propio programa de pasos temporales, de modo que un control deslizante de eliminación de ruido en movimiento se rastrea sin vaciar la cola en vuelo, mientras que el diseño de programa global ascendente debe reconstruirla y descartarla. (2) Estado mutable compartido por paso, que otorga a cualquier parámetro consultado en cada paso del solucionador un efecto en el siguiente paso, evitando el drenaje del búfer circular. (3) Mezcla de fuentes por trama: un control en tiempo de muestreo sobre el paso estándar de reinyección de ruido SDE, que proporciona un eje de intensidad de transformación trama a trama que complementa la programación escalar de eliminación de ruido. (4) Decodificación VAE con ventana que explora el análisis de campo receptivo para una aceleración de decodificación de 8.0x. En conjunto, estos separan los parámetros de difusión en streaming en cuatro clases de propagación, según la latencia de inicio y de convergencia.
English
We present DEMON, a real-time diffusion engine that makes the denoising process playable as a live musical instrument: a control surface both broad (many parameters shaped per-frame across the output) and responsive (each control taking effect as fast as its place in the denoising loop allows). Built on ACE-Step 1.5 and StreamDiffusion's ring-buffer architecture with TensorRT acceleration, it sustains up to 12.3 decoder completions per second for 60-second music on a single consumer GPU (RTX 5090), or 11.3 generations per second at our production ring-depth of 4. At these rates denoising parameters become viable as live performance controls, but the ring buffer propagates per-request changes only at its drain rate, a floor of S denoising steps. We contribute four mechanisms. (1) Per-slot heterogeneous denoise scheduling: each ring-buffer slot owns its timestep schedule, so a moving denoise slider is tracked without wiping the in-flight queue, where the upstream global-schedule design must rebuild and discard it. (2) Shared mutable per-step state, giving any parameter consulted at every solver step next-tick effect, bypassing ring-buffer drain. (3) Per-frame source blending: a sampling-time control on the standard SDE re-noise step, giving a framewise transformation-strength axis that complements scalar denoise scheduling. (4) Windowed VAE decode exploiting receptive-field analysis for an 8.0x decode speedup. Together these separate streaming-diffusion parameters into four propagation classes, by onset and convergence latency.