SoundWeaver : Amorçage Sémantique pour le Service de Diffusion Texte-vers-Audio

Résumé

Les modèles de diffusion texte-audio produisent des fichiers audio de haute fidélité mais nécessitent des dizaines d'évaluations de fonctions (NFE), entraînant une latence de plusieurs secondes et un débit limité. Nous présentons SoundWeaver, le premier système de service agnostique au modèle et ne nécessitant pas d'entraînement, qui accélère la diffusion texte-audio en amorçant le processus à partir d'audio similaire sémantiquement présent dans le cache. SoundWeaver introduit trois composants : un Sélecteur de Référence qui récupère et aligne temporellement les candidats du cache via un mécanisme de gating sémantique et sensible à la durée ; un Porte de Saut qui détermine dynamiquement le pourcentage de NFE à sauter ; et un Gestionnaire de Cache léger qui maintient l'utilité du cache via une éviction et un raffinement conscients de la qualité. Sur des traces audio du monde réel, SoundWeaver réalise une réduction de latence de 1,8 à 3,0 fois avec un cache de seulement ∼1 000 entrées, tout en préservant ou en améliorant la qualité perceptuelle.

English

Text-to-audio diffusion models produce high-fidelity audio but require tens of function evaluations (NFEs), incurring multi-second latency and limited throughput. We present SoundWeaver, the first training-free, model-agnostic serving system that accelerates text-to-audio diffusion by warm-starting from semantically similar cached audio. SoundWeaver introduces three components: a Reference Selector that retrieves and temporally aligns cached candidates via semantic and duration-aware gating; a Skip Gater that dynamically determines the percentage of NFEs to skip; and a lightweight Cache Manager that maintains cache utility through quality-aware eviction and refinement. On real-world audio traces, SoundWeaver achieves 1.8--3.0 times latency reduction with a cache of only {sim}1K entries while preserving or improving perceptual quality.

SoundWeaver : Amorçage Sémantique pour le Service de Diffusion Texte-vers-Audio

SoundWeaver: Semantic Warm-Starting for Text-to-Audio Diffusion Serving

Résumé

Support