SoundWeaver: Semantisches Warm-Starting für Text-zu-Audio-Diffusion-Serving
SoundWeaver: Semantic Warm-Starting for Text-to-Audio Diffusion Serving
March 9, 2026
Autoren: Ayush Barik, Sofia Stoica, Nikhil Sarda, Arnav Kethana, Abhinav Khanduja, Muchen Xu, Fan Lai
cs.AI
Zusammenfassung
Text-to-Audio-Diffusionsmodelle erzeugen hochwertige Audioausgaben, benötigen jedoch Dutzende von Funktionsauswertungen (NFEs), was zu Latenzen im Sekundenbereich und begrenztem Durchsatz führt. Wir stellen SoundWeaver vor, das erste trainingsfreie, modellagnostische Bereitstellungssystem, das Text-to-Audio-Diffusion beschleunigt, indem es mit semantisch ähnlichen, zwischengespeicherten Audiodaten warmstartet. SoundWeaver führt drei Komponenten ein: einen Referenzselektor, der zwischengespeicherte Kandidaten über semantisches und dauerbasiertes Gating abruft und zeitlich ausrichtet; einen Skip-Gater, der dynamisch den Prozentsatz der zu überspringenden NFEs bestimmt; und einen schlanken Cache-Manager, der die Nutzungsqualität des Caches durch qualitätsbewusste Verdrängung und Verfeinerung aufrechterhält. Bei realen Audio-Traces erreicht SoundWeaver eine 1,8–3,0-fache Latenzreduzierung mit einem Cache von nur ∼1.000 Einträgen bei gleichzeitiger Beibehaltung oder Verbesserung der wahrgenommenen Qualität.
English
Text-to-audio diffusion models produce high-fidelity audio but require tens of function evaluations (NFEs), incurring multi-second latency and limited throughput. We present SoundWeaver, the first training-free, model-agnostic serving system that accelerates text-to-audio diffusion by warm-starting from semantically similar cached audio. SoundWeaver introduces three components: a Reference Selector that retrieves and temporally aligns cached candidates via semantic and duration-aware gating; a Skip Gater that dynamically determines the percentage of NFEs to skip; and a lightweight Cache Manager that maintains cache utility through quality-aware eviction and refinement. On real-world audio traces, SoundWeaver achieves 1.8--3.0 times latency reduction with a cache of only {sim}1K entries while preserving or improving perceptual quality.