ChatPaper.aiChatPaper

SoundWeaver: Arranque en Caliente Semántico para la Servición de Difusión de Texto a Audio

SoundWeaver: Semantic Warm-Starting for Text-to-Audio Diffusion Serving

March 9, 2026
Autores: Ayush Barik, Sofia Stoica, Nikhil Sarda, Arnav Kethana, Abhinav Khanduja, Muchen Xu, Fan Lai
cs.AI

Resumen

Los modelos de difusión de texto a audio producen audio de alta fidelidad pero requieren decenas de evaluaciones de función (NFEs), incurriendo en latencias de varios segundos y un rendimiento limitado. Presentamos SoundWeaver, el primer sistema de servicio agnóstico al modelo y sin entrenamiento que acelera la difusión de texto a audio mediante un inicio cálido partiendo de audio en caché semánticamente similar. SoundWeaver introduce tres componentes: un Selector de Referencias que recupera y alinea temporalmente candidatos en caché mediante un filtrado semántico y consciente de la duración; un Puerta de Omisión que determina dinámicamente el porcentaje de NFEs a omitir; y un Administrador de Caché ligero que mantiene la utilidad de la caché mediante una expulsión y refinamiento conscientes de la calidad. En trazas de audio del mundo real, SoundWeaver logra una reducción de latencia de 1.8 a 3.0 veces con una caché de solo ~1K entradas, preservando o mejorando la calidad perceptual.
English
Text-to-audio diffusion models produce high-fidelity audio but require tens of function evaluations (NFEs), incurring multi-second latency and limited throughput. We present SoundWeaver, the first training-free, model-agnostic serving system that accelerates text-to-audio diffusion by warm-starting from semantically similar cached audio. SoundWeaver introduces three components: a Reference Selector that retrieves and temporally aligns cached candidates via semantic and duration-aware gating; a Skip Gater that dynamically determines the percentage of NFEs to skip; and a lightweight Cache Manager that maintains cache utility through quality-aware eviction and refinement. On real-world audio traces, SoundWeaver achieves 1.8--3.0 times latency reduction with a cache of only {sim}1K entries while preserving or improving perceptual quality.
PDF33March 15, 2026