SoundWeaver: Avvio Ottimizzato Semantico per il Servizio di Diffusione da Testo ad Audio

Abstract

I modelli di diffusione testo-audio producono audio ad alta fedeltà ma richiedono decine di valutazioni di funzione (NFE), comportando una latenza di diversi secondi e una produttività limitata. Presentiamo SoundWeaver, il primo sistema di servizio model-agnostic e senza necessità di addestramento che accelera la diffusione testo-audio avviandosi in modo ottimizzato partendo da audio semanticamente simile presente nella cache. SoundWeaver introduce tre componenti: un Selettore di Riferimento che recupera e allinea temporalmente i candidati in cache tramite un meccanismo di gate semantico e consapevole della durata; un Cancello di Salto che determina dinamicamente la percentuale di NFE da saltare; e un Gestore di Cache leggero che mantiene l'utilità della cache attraverso meccanismi di rimozione e raffinamento basati sulla qualità. Su tracce audio del mondo reale, SoundWeaver ottiene una riduzione della latenza di 1,8–3,0 volte con una cache di sole ~1.000 voci, preservando o migliorando al contempo la qualità percettiva.

English

Text-to-audio diffusion models produce high-fidelity audio but require tens of function evaluations (NFEs), incurring multi-second latency and limited throughput. We present SoundWeaver, the first training-free, model-agnostic serving system that accelerates text-to-audio diffusion by warm-starting from semantically similar cached audio. SoundWeaver introduces three components: a Reference Selector that retrieves and temporally aligns cached candidates via semantic and duration-aware gating; a Skip Gater that dynamically determines the percentage of NFEs to skip; and a lightweight Cache Manager that maintains cache utility through quality-aware eviction and refinement. On real-world audio traces, SoundWeaver achieves 1.8--3.0 times latency reduction with a cache of only {sim}1K entries while preserving or improving perceptual quality.

SoundWeaver: Avvio Ottimizzato Semantico per il Servizio di Diffusione da Testo ad Audio

SoundWeaver: Semantic Warm-Starting for Text-to-Audio Diffusion Serving

Abstract

Support