DEMON: Диффузионный движок для музыкального оркестрованного шума

Аннотация

Мы представляем DEMON — движок диффузии в реальном времени, который превращает процесс шумоподавления в живой музыкальный инструмент: панель управления, одновременно широкую (множество параметров, формируемых покадрово по всему выходу) и отзывчивую (каждый элемент управления вступает в силу так быстро, как позволяет его место в цикле шумоподавления). Построенный на основе ACE-Step 1.5 и архитектуры кольцевого буфера StreamDiffusion с ускорением TensorRT, он обеспечивает до 12,3 завершений декодирования в секунду для 60-секундной музыки на одном потребительском GPU (RTX 5090) или 11,3 генерации в секунду при нашей рабочей глубине кольца, равной 4. При таких скоростях параметры шумоподавления становятся пригодными для живого управления, но кольцевой буфер распространяет изменения по запросу только со скоростью своего истощения, что составляет нижнюю границу в S шагов шумоподавления. Мы предлагаем четыре механизма. (1) Поканальное гетерогенное планирование шумоподавления: каждый слот кольцевого буфера имеет собственное расписание временных шагов, поэтому перемещаемый ползунок шумоподавления отслеживается без очистки очереди в обработке, тогда как вышестоящая конструкция глобального расписания должна перестраивать и отбрасывать ее. (2) Общее изменяемое состояние на каждом шаге, обеспечивающее мгновенный эффект на следующем тике для любого параметра, учитываемого на каждом шаге решателя, в обход истощения кольцевого буфера. (3) Покадровое смешивание источников: управление на этапе выборки в стандартном шаге повторного шума SDE, предоставляющее покадровую ось силы преобразования, дополняющую скалярное планирование шумоподавления. (4) Оконное декодирование VAE, использующее анализ рецептивного поля для ускорения декодирования в 8,0 раза. Вместе они разделяют параметры потоковой диффузии на четыре класса распространения по латентности начала и сходимости.

English

We present DEMON, a real-time diffusion engine that makes the denoising process playable as a live musical instrument: a control surface both broad (many parameters shaped per-frame across the output) and responsive (each control taking effect as fast as its place in the denoising loop allows). Built on ACE-Step 1.5 and StreamDiffusion's ring-buffer architecture with TensorRT acceleration, it sustains up to 12.3 decoder completions per second for 60-second music on a single consumer GPU (RTX 5090), or 11.3 generations per second at our production ring-depth of 4. At these rates denoising parameters become viable as live performance controls, but the ring buffer propagates per-request changes only at its drain rate, a floor of S denoising steps. We contribute four mechanisms. (1) Per-slot heterogeneous denoise scheduling: each ring-buffer slot owns its timestep schedule, so a moving denoise slider is tracked without wiping the in-flight queue, where the upstream global-schedule design must rebuild and discard it. (2) Shared mutable per-step state, giving any parameter consulted at every solver step next-tick effect, bypassing ring-buffer drain. (3) Per-frame source blending: a sampling-time control on the standard SDE re-noise step, giving a framewise transformation-strength axis that complements scalar denoise scheduling. (4) Windowed VAE decode exploiting receptive-field analysis for an 8.0x decode speedup. Together these separate streaming-diffusion parameters into four propagation classes, by onset and convergence latency.