DEMON : Moteur de Diffusion pour Bruit Orchestré Musical
DEMON: Diffusion Engine for Musical Orchestrated Noise
May 27, 2026
Auteurs: Ryan Fosdick
cs.AI
Résumé
Nous présentons DEMON, un moteur de diffusion en temps réel qui rend le processus de débruitage jouable comme un instrument de musique live : une surface de contrôle à la fois vaste (de nombreux paramètres façonnés par image sur l'ensemble de la sortie) et réactive (chaque contrôle prenant effet aussi rapidement que sa place dans la boucle de débruitage le permet). Construit sur ACE-Step 1.5 et l'architecture de tampon circulaire de StreamDiffusion avec accélération TensorRT, il soutient jusqu'à 12,3 décodages complets par seconde pour une musique de 60 secondes sur un seul GPU grand public (RTX 5090), ou 11,3 générations par seconde à notre profondeur de tampon circulaire de production de 4. À ces fréquences, les paramètres de débruitage deviennent viables en tant que contrôles de performance live, mais le tampon circulaire propage les changements par requête uniquement à son taux de drainage, un plancher de S étapes de débruitage. Nous contribuons quatre mécanismes. (1) Ordonnancement de débruitage hétérogène par emplacement : chaque emplacement du tampon circulaire possède son propre calendrier d'étapes, de sorte qu'un curseur de débruitage en mouvement est suivi sans effacer la file d'attente en cours, là où la conception amont de calendrier global doit la reconstruire et la jeter. (2) État mutable partagé par étape, donnant à tout paramètre consulté à chaque étape du solveur un effet au prochain pas, contournant le drainage du tampon circulaire. (3) Mélange de sources par image : un contrôle au moment de l'échantillonnage sur l'étape standard de re-bruitage SDE, offrant un axe d'intensité de transformation par image qui complète l'ordonnancement de débruitage scalaire. (4) Décodage VAE fenêtré exploitant l'analyse du champ réceptif pour une accélération du décodage de 8,0x. Ensemble, ces mécanismes séparent les paramètres de diffusion en flux en quatre classes de propagation, selon la latence d'apparition et de convergence.
English
We present DEMON, a real-time diffusion engine that makes the denoising process playable as a live musical instrument: a control surface both broad (many parameters shaped per-frame across the output) and responsive (each control taking effect as fast as its place in the denoising loop allows). Built on ACE-Step 1.5 and StreamDiffusion's ring-buffer architecture with TensorRT acceleration, it sustains up to 12.3 decoder completions per second for 60-second music on a single consumer GPU (RTX 5090), or 11.3 generations per second at our production ring-depth of 4. At these rates denoising parameters become viable as live performance controls, but the ring buffer propagates per-request changes only at its drain rate, a floor of S denoising steps. We contribute four mechanisms. (1) Per-slot heterogeneous denoise scheduling: each ring-buffer slot owns its timestep schedule, so a moving denoise slider is tracked without wiping the in-flight queue, where the upstream global-schedule design must rebuild and discard it. (2) Shared mutable per-step state, giving any parameter consulted at every solver step next-tick effect, bypassing ring-buffer drain. (3) Per-frame source blending: a sampling-time control on the standard SDE re-noise step, giving a framewise transformation-strength axis that complements scalar denoise scheduling. (4) Windowed VAE decode exploiting receptive-field analysis for an 8.0x decode speedup. Together these separate streaming-diffusion parameters into four propagation classes, by onset and convergence latency.