ChatPaper.aiChatPaper

DEMON: Motor de Difusão para Ruído Musical Orquestrado

DEMON: Diffusion Engine for Musical Orchestrated Noise

May 27, 2026
Autores: Ryan Fosdick
cs.AI

Resumo

Apresentamos o DEMON, um motor de difusão em tempo real que torna o processo de remoção de ruído (denoising) jogável como um instrumento musical ao vivo: uma superfície de controle tanto ampla (muitos parâmetros moldados por quadro na saída) quanto responsiva (cada controle produzindo efeito tão rápido quanto sua posição no laço de remoção de ruído permite). Construído sobre o ACE-Step 1.5 e a arquitetura de buffer circular do StreamDiffusion com aceleração TensorRT, ele sustenta até 12,3 conclusões de decodificador por segundo para músicas de 60 segundos em uma única GPU de consumo (RTX 5090), ou 11,3 gerações por segundo em nossa profundidade de buffer circular de produção de 4. Nessas taxas, os parâmetros de remoção de ruído tornam-se viáveis como controles de performance ao vivo, mas o buffer circular propaga alterações por solicitação apenas à sua taxa de drenagem, um piso de S etapas de remoção de ruído. Contribuímos com quatro mecanismos: (1) Agendamento heterogêneo de remoção de ruído por slot: cada slot do buffer circular possui seu próprio cronograma de passos de tempo, de modo que um controle deslizante de remoção de ruído em movimento é rastreado sem limpar a fila em andamento, enquanto o design de agendamento global a montante precisaria reconstruí-la e descartá-la. (2) Estado mutável compartilhado por etapa, dando a qualquer parâmetro consultado a cada etapa do solucionador um efeito no próximo tick, contornando a drenagem do buffer circular. (3) Mistura de fontes por quadro: um controle no tempo de amostragem sobre a etapa padrão de re-ruído SDE, fornecendo um eixo de intensidade de transformação por quadro que complementa o agendamento escalar de remoção de ruído. (4) Decodificação VAE janelada, explorando a análise do campo receptivo para uma aceleração de 8,0x na decodificação. Juntos, esses mecanismos separam os parâmetros de difusão em fluxo contínuo em quatro classes de propagação, por latência de início e convergência.
English
We present DEMON, a real-time diffusion engine that makes the denoising process playable as a live musical instrument: a control surface both broad (many parameters shaped per-frame across the output) and responsive (each control taking effect as fast as its place in the denoising loop allows). Built on ACE-Step 1.5 and StreamDiffusion's ring-buffer architecture with TensorRT acceleration, it sustains up to 12.3 decoder completions per second for 60-second music on a single consumer GPU (RTX 5090), or 11.3 generations per second at our production ring-depth of 4. At these rates denoising parameters become viable as live performance controls, but the ring buffer propagates per-request changes only at its drain rate, a floor of S denoising steps. We contribute four mechanisms. (1) Per-slot heterogeneous denoise scheduling: each ring-buffer slot owns its timestep schedule, so a moving denoise slider is tracked without wiping the in-flight queue, where the upstream global-schedule design must rebuild and discard it. (2) Shared mutable per-step state, giving any parameter consulted at every solver step next-tick effect, bypassing ring-buffer drain. (3) Per-frame source blending: a sampling-time control on the standard SDE re-noise step, giving a framewise transformation-strength axis that complements scalar denoise scheduling. (4) Windowed VAE decode exploiting receptive-field analysis for an 8.0x decode speedup. Together these separate streaming-diffusion parameters into four propagation classes, by onset and convergence latency.