ChatPaper.aiChatPaper

SoundWeaver: Semantische Warm-Start voor Text-naar-Audio Diffusie Services

SoundWeaver: Semantic Warm-Starting for Text-to-Audio Diffusion Serving

March 9, 2026
Auteurs: Ayush Barik, Sofia Stoica, Nikhil Sarda, Arnav Kethana, Abhinav Khanduja, Muchen Xu, Fan Lai
cs.AI

Samenvatting

Text-to-audio diffusiemodellen produceren audio van hoge kwaliteit, maar vereisen tientallen functie-evaluaties (NFEs), wat leidt tot latentie van meerdere seconden en beperkte doorvoer. Wij presenteren SoundWeaver, het eerste trainingsvrije, model-agnostische servesysteem dat text-to-audio diffusie versnelt door een warme start te maken vanaf semantisch vergelijkbare gecachete audio. SoundWeaver introduceert drie componenten: een Referentie-Selectiemodule die gecachete kandidaten ophaalt en temporeel uitlijnt via semantische en duratiebewuste gating; een Skip-Gater die dynamisch het percentage over te slaan NFEs bepaalt; en een lichtgewicht Cachebeheerder die de bruikbaarheid van de cache handhaaft door kwaliteitsbewuste verwijdering en verfijning. Op real-world audiotrajecten behaalt SoundWeaver een latentievermindering van 1,8–3,0 keer met een cache van slechts ~1K items, waarbij de perceptuele kwaliteit behouden blijft of verbetert.
English
Text-to-audio diffusion models produce high-fidelity audio but require tens of function evaluations (NFEs), incurring multi-second latency and limited throughput. We present SoundWeaver, the first training-free, model-agnostic serving system that accelerates text-to-audio diffusion by warm-starting from semantically similar cached audio. SoundWeaver introduces three components: a Reference Selector that retrieves and temporally aligns cached candidates via semantic and duration-aware gating; a Skip Gater that dynamically determines the percentage of NFEs to skip; and a lightweight Cache Manager that maintains cache utility through quality-aware eviction and refinement. On real-world audio traces, SoundWeaver achieves 1.8--3.0 times latency reduction with a cache of only {sim}1K entries while preserving or improving perceptual quality.
PDF33March 24, 2026